論文の概要: Beyond Contrastive Learning: Synthetic Data Enables List-wise Training with Multiple Levels of Relevance
- arxiv url: http://arxiv.org/abs/2503.23239v2
- Date: Tue, 04 Nov 2025 07:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.138192
- Title: Beyond Contrastive Learning: Synthetic Data Enables List-wise Training with Multiple Levels of Relevance
- Title(参考訳): コントラスト学習を超えて: 複数のレベルの関連性を持つリストワイズトレーニングを可能にするシンセティックデータ
- Authors: Reza Esfandiarpoor, George Zerveas, Ruochen Zhang, Macton Mgonzo, Carsten Eickhoff, Stephen H. Bach,
- Abstract要約: 本研究では,実際の文書やアノテーションを定式化し,大規模な言語モデルを用いて合成文書を生成する。
MARCO と BEIR のベンチマーク実験により,提案手法は従来の InfoNCE を用いたトレーニングよりも高い性能を示した。
- 参考スコア(独自算出の注目度): 30.879299174443812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although synthetic data has changed various aspects of information retrieval (IR) pipelines, the main training paradigm remains: contrastive learning with binary relevance labels, where one positive document is compared against several negatives using the InfoNCE loss. This objective treats all documents that are not explicitly annotated as relevant on an equally negative footing, regardless of their actual degree of relevance, thus missing subtle nuances useful for ranking. To overcome this limitation, in this work, we forgo real documents and annotations and use large language models to directly generate synthetic documents that answer the MS MARCO queries according to several different levels of relevance. We also propose using Wasserstein distance as a more effective loss function for training transformer-based retrievers with graduated relevance labels. Our experiments on MS MARCO and BEIR benchmark show that our proposed approach outperforms conventional training with InfoNCE by a large margin. Without using any real documents, our method significantly improves self-supervised retrievers and is more robust to distribution shift compared to contrastive learning using real data. Our method also successfully integrates existing real data into the synthetic ranking context, further boosting the performance. Overall, we show that generating multi-level ranking contexts is a better approach to synthetic data generation for IR than just generating the standard positive and negative documents.
- Abstract(参考訳): 合成データは情報検索(IR)パイプラインの様々な側面を変えてきたが、主要な訓練パラダイムは次のようなものである。
この目的は、実際の関連度に関わらず、等しく否定的な足場について明示的に注釈付けされていないすべての文書を扱うため、ランキングに有用な微妙なニュアンスを欠いている。
この制限を克服するため、本研究では、実際の文書やアノテーションを定め、大規模な言語モデルを用いてMS MARCOクエリに応答する合成文書を直接生成する。
また,変圧器を用いたレトリバーの学習において,より効果的な損失関数としてワッサースタイン距離を用いることを提案する。
MARCO と BEIR のベンチマーク実験により,提案手法は従来の InfoNCE を用いたトレーニングよりも高い性能を示した。
実際の文書を使わずに,本手法は自己教師付きレトリバーを著しく改善し,実データを用いた対照的な学習に比べて分布シフトに頑健である。
提案手法は,既存の実データを合成ランキングコンテキストに統合し,性能をさらに向上させる。
全体としては、標準の正と負の文書を生成することよりも、IRの合成データ生成に多段階のランク付けコンテキストを生成する方がよいことが示される。
関連論文リスト
- ReasonIR: Training Retrievers for Reasoning Tasks [139.54343970560103]
ReasonIR-8Bは一般的な推論タスクのために特別に訓練された最初のレトリバーである。
新たに29.9 nDCG@10をリランカなしで、36.9 nDCG@10をリランカで達成している。
論文 参考訳(メタデータ) (2025-04-29T09:49:28Z) - Training a Utility-based Retriever Through Shared Context Attribution for Retrieval-Augmented Language Models [51.608246558235166]
SCARLetは、RALMsでユーティリティベースのレトリバーをトレーニングするためのフレームワークである。
マルチタスクの一般化とパッセージ間相互作用という2つの重要な要素が組み込まれている。
ドメイン内とドメイン外の両方で、さまざまなタスクにまたがる10のデータセットに対するアプローチを評価します。
論文 参考訳(メタデータ) (2025-04-01T09:28:28Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Balancing Reinforcement Learning Training Experiences in Interactive
Information Retrieval [19.723551683930776]
対話型情報検索(IIR)と強化学習(RL)は、対話中に学習するエージェントなど、多くの共通点を共有している。
IIRにRLメソッドをうまく適用するには、RLエージェントを訓練するための十分な関連ラベルを得ることが課題である。
本論文は、ドメインランダム化を用いて、より関連性の高い文書を合成することにより、この問題に対処する。
論文 参考訳(メタデータ) (2020-06-05T00:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。