論文の概要: How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?
- arxiv url: http://arxiv.org/abs/2407.07479v1
- Date: Wed, 10 Jul 2024 09:10:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:21:35.000424
- Title: How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?
- Title(参考訳): クロスエンコーダを画像検索効率の良い教師にする方法
- Authors: Yuxin Chen, Zongyang Ma, Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Bing Li, Junfu Pu, Ying Shan, Xiaojuan Qi, Weiming Hu,
- Abstract要約: クロスエンコーダのクロスモーダル類似度スコア分布は、二重エンコーダの結果がほぼ正常である間により集中する。
強陰性間の相対的な順序だけが有効な知識を伝達する一方、容易な負性間の順序情報はほとんど意味を持たない。
本研究では, コントラスト学習を用いて, 硬質負試料間の相対的な順序を模倣することを目的とした, コントラスト部分式蒸留法を提案する。
- 参考スコア(独自算出の注目度): 99.87554379608224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dominant dual-encoder models enable efficient image-text retrieval but suffer from limited accuracy while the cross-encoder models offer higher accuracy at the expense of efficiency. Distilling cross-modality matching knowledge from cross-encoder to dual-encoder provides a natural approach to harness their strengths. Thus we investigate the following valuable question: how to make cross-encoder a good teacher for dual-encoder? Our findings are threefold:(1) Cross-modal similarity score distribution of cross-encoder is more concentrated while the result of dual-encoder is nearly normal making vanilla logit distillation less effective. However ranking distillation remains practical as it is not affected by the score distribution.(2) Only the relative order between hard negatives conveys valid knowledge while the order information between easy negatives has little significance.(3) Maintaining the coordination between distillation loss and dual-encoder training loss is beneficial for knowledge transfer. Based on these findings we propose a novel Contrastive Partial Ranking Distillation (CPRD) method which implements the objective of mimicking relative order between hard negative samples with contrastive learning. This approach coordinates with the training of the dual-encoder effectively transferring valid knowledge from the cross-encoder to the dual-encoder. Extensive experiments on image-text retrieval and ranking tasks show that our method surpasses other distillation methods and significantly improves the accuracy of dual-encoder.
- Abstract(参考訳): 支配的なデュアルエンコーダモデルは効率的な画像テキスト検索を可能にするが、クロスエンコーダモデルは効率を犠牲にして高い精度を提供する一方、限られた精度に苦しむ。
クロスエンコーダからデュアルエンコーダへのクロスモーダルマッチング知識の蒸留は、それらの強みを利用する自然なアプローチを提供する。
そこで, クロスエンコーダをデュアルエンコーダの優れた教師にする方法について検討する。
1) クロスエンコーダのクロスモーダル類似度スコア分布はより高濃度であり, 二重エンコーダの結果はほぼ正常であり, バニラロジット蒸留の効率が低下している。
しかし、スコア分布の影響を受けないため、格付け蒸留は実践的のままである。
2) 強陰性間の相対的な順序だけが有効な知識を伝達する一方, 容易な負性間の順序情報はほとんど意味を持たない。
3) 蒸留損失と二重エンコーダ訓練損失の調整を維持することは, 知識伝達に有用である。
そこで本研究では, 厳密な負のサンプル間の相対的な順序を再現し, 比較学習を行うことを目的として, CPRD法を提案する。
このアプローチは、クロスエンコーダからデュアルエンコーダへ有効な知識を効果的に伝達するデュアルエンコーダのトレーニングと協調する。
画像テキスト検索とランキングタスクの広範囲な実験により,本手法は他の蒸留法を超越し,デュアルエンコーダの精度を大幅に向上することが示された。
関連論文リスト
- Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix
Factorization [60.91600465922932]
本稿では,クロスエンコーダのみに頼って,二重エンコーダによる検索を回避する手法を提案する。
我々のアプローチは、現在の広く使われている方法よりも優れたテスト時間リコール-vs計算コストトレードオフを提供する。
論文 参考訳(メタデータ) (2022-10-23T00:32:04Z) - Revisiting Code Search in a Two-Stage Paradigm [67.02322603435628]
TOSSは2段階のフュージョンコード検索フレームワークである。
まずIRベースのバイエンコーダモデルを使用して、少数のトップkコード候補を効率的にリコールする。
その後、より微細なクロスエンコーダを使用してランク付けを行う。
論文 参考訳(メタデータ) (2022-08-24T02:34:27Z) - AWEncoder: Adversarial Watermarking Pre-trained Encoders in Contrastive
Learning [18.90841192412555]
コントラスト学習において,事前学習したエンコーダをウォーターマークする逆法であるAWEncoderを導入する。
提案した研究は、異なるコントラスト学習アルゴリズムや下流タスクにおいて、極めて優れた有効性と堅牢性を持っている。
論文 参考訳(メタデータ) (2022-08-08T07:23:37Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z) - Trans-Encoder: Unsupervised sentence-pair modelling through self- and
mutual-distillations [22.40667024030858]
バイエンコーダは固定次元の文表現を生成し、計算効率が良い。
クロスエンコーダは、アテンションヘッドを利用して、より優れたパフォーマンスのために文間相互作用を利用することができる。
Trans-Encoderは、2つの学習パラダイムを反復的なジョイントフレームワークに統合し、拡張されたバイ・エンコーダとクロス・エンコーダを同時に学習する。
論文 参考訳(メタデータ) (2021-09-27T14:06:47Z) - CoDERT: Distilling Encoder Representations with Co-learning for
Transducer-based Speech Recognition [14.07385381963374]
トランスデューサのエンコーダ出力は自然に高いエントロピーを持ち、音響的に類似した単語-ピースの混同に関する豊富な情報を含んでいることを示す。
本稿では,教師のトランスデューサのエンコーダのロジットを蒸留するための補助的損失を導入し,このエンコーダ蒸留が効果的に機能するトレーニング戦略を探る。
論文 参考訳(メタデータ) (2021-06-14T20:03:57Z) - Two are Better than One: Joint Entity and Relation Extraction with
Table-Sequence Encoders [13.999110725631672]
2つの異なるエンコーダは、表現学習プロセスにおいて互いに助け合うように設計されている。
実験により,エム1エンコーダよりもエム2エンコーダの利点が確認された。
論文 参考訳(メタデータ) (2020-10-08T09:10:55Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。