論文の概要: BagFormer: Better Cross-Modal Retrieval via bag-wise interaction
- arxiv url: http://arxiv.org/abs/2212.14322v1
- Date: Thu, 29 Dec 2022 14:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 17:23:38.983505
- Title: BagFormer: Better Cross-Modal Retrieval via bag-wise interaction
- Title(参考訳): BagFormer: バッグ操作によるクロスモーダル検索の改善
- Authors: Haowen Hou, Xiaopeng Yan, Yigeng Zhang, Fengzong Lian and Zhanhui Kang
- Abstract要約: BagFormerはデュアルエンコーダモデルであり、クロスモーダル相互作用機構を利用して、レイテンシとスループットを犠牲にすることなくリコール性能を改善する。
実験により,BagFormerは,モーダル検索タスクにおいて,最先端の単一エンコーダモデルに匹敵する結果が得られることを示した。
- 参考スコア(独自算出の注目度): 5.136059802377996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of cross-modal retrieval, single encoder models tend to perform
better than dual encoder models, but they suffer from high latency and low
throughput. In this paper, we present a dual encoder model called BagFormer
that utilizes a cross modal interaction mechanism to improve recall performance
without sacrificing latency and throughput. BagFormer achieves this through the
use of bag-wise interactions, which allow for the transformation of text to a
more appropriate granularity and the incorporation of entity knowledge into the
model. Our experiments demonstrate that BagFormer is able to achieve results
comparable to state-of-the-art single encoder models in cross-modal retrieval
tasks, while also offering efficient training and inference with 20.72 times
lower latency and 25.74 times higher throughput.
- Abstract(参考訳): クロスモーダル検索の分野では、シングルエンコーダモデルはデュアルエンコーダモデルよりも性能が良い傾向にあるが、高いレイテンシと低スループットに悩まされている。
本稿では,待ち時間とスループットを犠牲にすることなくリコール性能を向上させるためのクロスモーダルインタラクション機構を用いた,bagformerと呼ばれるデュアルエンコーダモデルを提案する。
BagFormerはバッグワイズインタラクションを使用してこれを実現し、より適切な粒度へのテキスト変換とモデルへのエンティティ知識の導入を可能にします。
我々の実験では、BagFormerは、クロスモーダル検索タスクにおける最先端のシングルエンコーダモデルに匹敵する結果が得られると同時に、20.72倍のレイテンシと25.74倍のスループットで効率的なトレーニングと推論を提供する。
関連論文リスト
- Beyond Two-Tower Matching: Learning Sparse Retrievable
Cross-Interactions for Recommendation [80.19762472699814]
2-towerモデルは、産業アプリケーションに広くデプロイされている推奨のための一般的なマッチングフレームワークである。
機能間相互作用の制限と、オンラインサービスにおける精度の低下など、主な課題が2つある。
我々は,高度な機能相互作用だけでなく,効率的な検索もサポートするSparCodeという新しいマッチングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-30T03:13:36Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Once is Enough: A Light-Weight Cross-Attention for Fast Sentence Pair
Modeling [40.865668249839]
トランスフォーマーベースのモデルは文ペアモデリングタスクで大きな成功を収めた。
最近の研究は、より高速な計算のためのデュアルエンコーダと遅延相互作用アーキテクチャを提案する。
本稿では,効率的な文ペアモデリングのための新しいパラダイムMixEncoderを提案する。
論文 参考訳(メタデータ) (2022-10-11T08:44:03Z) - BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning [91.93547262073213]
近年,2towerアーキテクチャを用いた視覚言語モデル(VL)が視覚表現学習を支配している。
そこで,BridgeTowerを提案する。このBridgeTowerは,ユニモーダルエンコーダの上位層とクロスモーダルエンコーダの各層との間の接続を構築する複数のブリッジ層を提供する。
BridgeTowerは78.73%の精度を達成し、以前の最先端モデルであるMETERを1.09%上回った。
論文 参考訳(メタデータ) (2022-06-17T09:42:35Z) - Distilled Dual-Encoder Model for Vision-Language Understanding [50.42062182895373]
本稿では,視覚言語理解タスクのためのデュアルエンコーダモデルをトレーニングするための多モードアテンション蒸留フレームワークを提案する。
プレトレーニングと微調整の両方にクロスモーダルアテンション蒸留を適用することで,さらなる改良が期待できることを示す。
論文 参考訳(メタデータ) (2021-12-16T09:21:18Z) - Retrieve Fast, Rerank Smart: Cooperative and Joint Approaches for
Improved Cross-Modal Retrieval [80.35589927511667]
画像中のすべての単語やオブジェクトに係わるクロスアテンション機構を備えたTransformerベースのアーキテクチャを頼りに、クロスモーダル検索プロセスのテキストとビジュアルインプットへの最先端のアプローチ。
事前学習したテキスト画像のマルチモーダルモデルを効率的な検索モデルに変換する新しい微調整フレームワークを提案する。
我々は,モノリンガル,マルチリンガル,ゼロショットにおける一連の標準クロスモーダル検索ベンチマーク実験を行い,最先端クロスエンコーダに対する精度向上と大幅な効率向上を実証した。
論文 参考訳(メタデータ) (2021-03-22T15:08:06Z) - Parallel Rescoring with Transformer for Streaming On-Device Speech
Recognition [36.86458309520383]
2パスモデルは、デバイス上での音声認識において、より良い速度品質のトレードオフを提供する。
第2パスモデルは、従来のモデルを上回るエンドツーエンドモデルの品質改善において重要な役割を果たす。
本研究では,第2パスリスコラーのLSTM層をTransformer層に置き換えることを検討した。
論文 参考訳(メタデータ) (2020-08-30T05:17:31Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。