論文の概要: Beyond Contrastive Learning: Synthetic Data Enables List-wise Training with Multiple Levels of Relevance
- arxiv url: http://arxiv.org/abs/2503.23239v1
- Date: Sat, 29 Mar 2025 22:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:39:26.283769
- Title: Beyond Contrastive Learning: Synthetic Data Enables List-wise Training with Multiple Levels of Relevance
- Title(参考訳): コントラスト学習を超えて: 複数のレベルの関連性を持つリストワイズトレーニングを可能にするシンセティックデータ
- Authors: Reza Esfandiarpoor, George Zerveas, Ruochen Zhang, Macton Mgonzo, Carsten Eickhoff, Stephen H. Bach,
- Abstract要約: この作業では、実際のトレーニングドキュメントとアノテーションを完全に禁じています。
オープンソース LLM を用いて,複数のレベルの関連性に応じて,実際のユーザクエリに応答する合成文書を直接生成する。
各種IRデータセットの実験により,提案手法はInfoNCEを用いた従来のトレーニングよりも大きなマージンで優れていた。
- 参考スコア(独自算出の注目度): 24.842839260409075
- License:
- Abstract: Recent advancements in large language models (LLMs) have allowed the augmentation of information retrieval (IR) pipelines with synthetic data in various ways. Yet, the main training paradigm remains: contrastive learning with binary relevance labels and the InfoNCE loss, where one positive document is compared against one or more negatives. This objective treats all documents that are not explicitly annotated as relevant on an equally negative footing, regardless of their actual degree of relevance, thus (a) missing subtle nuances that are useful for ranking and (b) being susceptible to annotation noise. To overcome this limitation, in this work we forgo real training documents and annotations altogether and use open-source LLMs to directly generate synthetic documents that answer real user queries according to several different levels of relevance. This fully synthetic ranking context of graduated relevance, together with an appropriate list-wise loss (Wasserstein distance), enables us to train dense retrievers in a way that better captures the ranking task. Experiments on various IR datasets show that our proposed approach outperforms conventional training with InfoNCE by a large margin. Without using any real documents for training, our dense retriever significantly outperforms the same retriever trained through self-supervision. More importantly, it matches the performance of the same retriever trained on real, labeled training documents of the same dataset, while being more robust to distribution shift and clearly outperforming it when evaluated zero-shot on the BEIR dataset collection.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、情報検索(IR)パイプラインを様々な方法で合成データで拡張することを可能にする。
しかし、主要なトレーニングパラダイムは、バイナリ関連ラベルによる対照的な学習と、1つの正のドキュメントを1つ以上の負と比較するInfoNCE損失である。
この目的は、実際の関連度に関係なく、同程度の否定的な足場について明示的に注釈付けされていないすべての文書を扱う。
(a)格付けに有用な微妙なニュアンスを欠くこと
(b)アノテーションノイズの影響を受けやすいこと。
この制限を克服するために、本研究では、実際のトレーニング文書とアノテーションを完全に強制し、オープンソースのLCMを使用して、複数の異なるレベルの関連性に応じて、実際のユーザクエリに応答する合成文書を直接生成します。
この完全総合的な関係性ランキングの文脈は、適切なリストワイド・ロス(ワッサーシュタイン距離)とともに、ランキングタスクをよりよく捉える方法で、密集したレトリバーを訓練することができる。
各種IRデータセットの実験により,提案手法はInfoNCEを用いた従来のトレーニングよりも大きなマージンで優れていた。
トレーニングに実際の文書を使わずに、我々の密集したレトリバーは、自己監督によって訓練された同じレトリバーよりも大幅に優れています。
さらに重要なのは、同じデータセットの実際のラベル付きトレーニングドキュメントでトレーニングされた同じレトリバーのパフォーマンスにマッチすると同時に、分散シフトに対して堅牢で、BEIRデータセットコレクションでゼロショットを評価した場合には、明らかにパフォーマンスが向上する。
関連論文リスト
- Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Balancing Reinforcement Learning Training Experiences in Interactive
Information Retrieval [19.723551683930776]
対話型情報検索(IIR)と強化学習(RL)は、対話中に学習するエージェントなど、多くの共通点を共有している。
IIRにRLメソッドをうまく適用するには、RLエージェントを訓練するための十分な関連ラベルを得ることが課題である。
本論文は、ドメインランダム化を用いて、より関連性の高い文書を合成することにより、この問題に対処する。
論文 参考訳(メタデータ) (2020-06-05T00:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。