論文の概要: SamToNe: Improving Contrastive Loss for Dual Encoder Retrieval Models
with Same Tower Negatives
- arxiv url: http://arxiv.org/abs/2306.02516v1
- Date: Mon, 5 Jun 2023 00:43:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 17:27:43.044275
- Title: SamToNe: Improving Contrastive Loss for Dual Encoder Retrieval Models
with Same Tower Negatives
- Title(参考訳): samtone: 同じタワー負のデュアルエンコーダ検索モデルにおけるコントラスト損失の改善
- Authors: Fedor Moiseev, Gustavo Hernandez Abrego, Peter Dornbach, Imed Zitouni,
Enrique Alfonseca, Zhe Dong
- Abstract要約: デュアルエンコーダをトレーニングする標準的な方法は、バッチ内の負のコントラスト損失を使用することである。
そこで本研究では,同じエンコーダタワーからのクエリやドキュメントを負に付加することで,コントラスト学習の目的を改良する。
また、SamToNeは、対称と非対称の両方の二重エンコーダの検索品質を効果的に向上できることを示した。
- 参考スコア(独自算出の注目度): 4.864332428224798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dual encoders have been used for retrieval tasks and representation learning
with good results. A standard way to train dual encoders is using a contrastive
loss with in-batch negatives. In this work, we propose an improved contrastive
learning objective by adding queries or documents from the same encoder towers
to the negatives, for which we name it as "contrastive loss with SAMe TOwer
NEgatives" (SamToNe). By evaluating on question answering retrieval benchmarks
from MS MARCO and MultiReQA, and heterogenous zero-shot information retrieval
benchmarks (BEIR), we demonstrate that SamToNe can effectively improve the
retrieval quality for both symmetric and asymmetric dual encoders. By directly
probing the embedding spaces of the two encoding towers via the t-SNE algorithm
(van der Maaten and Hinton, 2008), we observe that SamToNe ensures the
alignment between the embedding spaces from the two encoder towers. Based on
the analysis of the embedding distance distributions of the top-$1$ retrieved
results, we further explain the efficacy of the method from the perspective of
regularisation.
- Abstract(参考訳): 二重エンコーダは検索タスクや表現学習に用いられており、結果も良好である。
デュアルエンコーダをトレーニングする標準的な方法は、バッチ内の負のコントラスト損失を使用することである。
本研究では,同一のエンコーダタワーからの問合せや文書を負数に加えることで,コントラスト学習の目標を改良し,その目的を「同一のタワー負数を持つ矛盾的損失(contrastive loss with same tower negatives)」と呼ぶ。
ms marco と multireqa の質問応答検索ベンチマークと異種ゼロショット情報検索ベンチマーク (beir) の評価により,samtone は対称および非対称デュアルエンコーダの検索品質を効果的に向上できることを実証した。
t-SNEアルゴリズム(van der Maaten and Hinton, 2008)を介して、2つのエンコーダ塔の埋め込み空間を直接探索することにより、SamToNeは2つのエンコーダ塔の埋め込み空間間のアライメントを保証する。
上位1ドルの検索結果の埋め込み距離分布の解析に基づいて,正規化の観点から,本手法の有効性をさらに説明する。
関連論文リスト
- How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval? [99.87554379608224]
クロスエンコーダのクロスモーダル類似度スコア分布は、二重エンコーダの結果がほぼ正常である間により集中する。
強陰性間の相対的な順序だけが有効な知識を伝達する一方、容易な負性間の順序情報はほとんど意味を持たない。
本研究では, コントラスト学習を用いて, 硬質負試料間の相対的な順序を模倣することを目的とした, コントラスト部分式蒸留法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:10:01Z) - SparseCL: Sparse Contrastive Learning for Contradiction Retrieval [87.02936971689817]
コントラディション検索(Contradiction Search)とは、クエリの内容に明示的に異を唱える文書を識別し、抽出することである。
類似性探索やクロスエンコーダモデルといった既存の手法には、大きな制限がある。
文間の微妙で矛盾したニュアンスを保存するために特別に訓練された文埋め込みを利用するSparseCLを導入する。
論文 参考訳(メタデータ) (2024-06-15T21:57:03Z) - REBAR: Retrieval-Based Reconstruction for Time-series Contrastive Learning [64.08293076551601]
正の対を識別する学習尺度を新たに提案する。
検索ベースレコンストラクションは2つのシーケンス間の類似度を測定する。
本稿では,REBAR誤差が相互クラスメンバシップの予測因子であることを示す。
論文 参考訳(メタデータ) (2023-11-01T13:44:45Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - UniASM: Binary Code Similarity Detection without Fine-tuning [0.8271859911016718]
バイナリ関数の表現を学習するために,UniASMと呼ばれるトランスフォーマーベースのバイナリコード埋め込みモデルを提案する。
既知の脆弱性検索の現実的なタスクでは、UniASMは現在のベースラインをすべて上回っている。
論文 参考訳(メタデータ) (2022-10-28T14:04:57Z) - LoopITR: Combining Dual and Cross Encoder Architectures for Image-Text
Retrieval [117.15862403330121]
共同学習のためのネットワークにおいて,デュアルエンコーダとクロスエンコーダを組み合わせたLoopITRを提案する。
具体的には、二重エンコーダをクロスエンコーダに強陰性を与え、より識別性の高いクロスエンコーダを用いてその予測を二重エンコーダに戻す。
論文 参考訳(メタデータ) (2022-03-10T16:41:12Z) - Adversarial Retriever-Ranker for dense text retrieval [51.87158529880056]
本稿では、二重エンコーダレトリバーとクロスエンコーダローダからなるAdversarial Retriever-Ranker(AR2)を提案する。
AR2は、既存の高密度レトリバー法より一貫して大幅に優れている。
これには、R@5から77.9%(+2.1%)、TriviaQA R@5から78.2%(+1.4)、MS-MARCO MRR@10から39.5%(+1.3%)の改善が含まれている。
論文 参考訳(メタデータ) (2021-10-07T16:41:15Z) - Self-Supervised Bernoulli Autoencoders for Semi-Supervised Hashing [1.8899300124593648]
本稿では,変分オートエンコーダに基づくハッシュ手法のロバスト性と,監督の欠如について検討する。
本稿では,モデルがラベル分布予測を用いて一対の目的を実現する新しい監視手法を提案する。
実験の結果,いずれの手法もハッシュコードの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2020-07-17T07:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。