論文の概要: Beyond Contrastive Learning: Synthetic Data Enables List-wise Training with Multiple Levels of Relevance
- arxiv url: http://arxiv.org/abs/2503.23239v2
- Date: Tue, 04 Nov 2025 07:25:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.138192
- Title: Beyond Contrastive Learning: Synthetic Data Enables List-wise Training with Multiple Levels of Relevance
- Title(参考訳): コントラスト学習を超えて: 複数のレベルの関連性を持つリストワイズトレーニングを可能にするシンセティックデータ
- Authors: Reza Esfandiarpoor, George Zerveas, Ruochen Zhang, Macton Mgonzo, Carsten Eickhoff, Stephen H. Bach,
- Abstract要約: 本研究では,実際の文書やアノテーションを定式化し,大規模な言語モデルを用いて合成文書を生成する。
MARCO と BEIR のベンチマーク実験により,提案手法は従来の InfoNCE を用いたトレーニングよりも高い性能を示した。
- 参考スコア(独自算出の注目度): 30.879299174443812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although synthetic data has changed various aspects of information retrieval (IR) pipelines, the main training paradigm remains: contrastive learning with binary relevance labels, where one positive document is compared against several negatives using the InfoNCE loss. This objective treats all documents that are not explicitly annotated as relevant on an equally negative footing, regardless of their actual degree of relevance, thus missing subtle nuances useful for ranking. To overcome this limitation, in this work, we forgo real documents and annotations and use large language models to directly generate synthetic documents that answer the MS MARCO queries according to several different levels of relevance. We also propose using Wasserstein distance as a more effective loss function for training transformer-based retrievers with graduated relevance labels. Our experiments on MS MARCO and BEIR benchmark show that our proposed approach outperforms conventional training with InfoNCE by a large margin. Without using any real documents, our method significantly improves self-supervised retrievers and is more robust to distribution shift compared to contrastive learning using real data. Our method also successfully integrates existing real data into the synthetic ranking context, further boosting the performance. Overall, we show that generating multi-level ranking contexts is a better approach to synthetic data generation for IR than just generating the standard positive and negative documents.
- Abstract(参考訳): 合成データは情報検索(IR)パイプラインの様々な側面を変えてきたが、主要な訓練パラダイムは次のようなものである。
この目的は、実際の関連度に関わらず、等しく否定的な足場について明示的に注釈付けされていないすべての文書を扱うため、ランキングに有用な微妙なニュアンスを欠いている。
この制限を克服するため、本研究では、実際の文書やアノテーションを定め、大規模な言語モデルを用いてMS MARCOクエリに応答する合成文書を直接生成する。
また,変圧器を用いたレトリバーの学習において,より効果的な損失関数としてワッサースタイン距離を用いることを提案する。
MARCO と BEIR のベンチマーク実験により,提案手法は従来の InfoNCE を用いたトレーニングよりも高い性能を示した。
実際の文書を使わずに,本手法は自己教師付きレトリバーを著しく改善し,実データを用いた対照的な学習に比べて分布シフトに頑健である。
提案手法は,既存の実データを合成ランキングコンテキストに統合し,性能をさらに向上させる。
全体としては、標準の正と負の文書を生成することよりも、IRの合成データ生成に多段階のランク付けコンテキストを生成する方がよいことが示される。
関連論文リスト
- Can LLM Annotations Replace User Clicks for Learning to Rank? [112.2254432364736]
大規模な教師付きデータは最新のランキングモデルのトレーニングには不可欠だが、高品質な人的アノテーションの取得にはコストがかかる。
クリックデータは低コストの代替手段として広く使われており、近年の大規模言語モデル(LLM)の発展に伴い、LLMベースの関連アノテーションも有望なアノテーションとして登場した。
公開データセットであるTianGong-STと、産業データセットであるBaidu-Clickの両方の実験は、クリック管理モデルが高周波クエリでより良いパフォーマンスを示すことを示している。
データスケジューリングと周波数対応多目的学習という2つのトレーニング戦略を検討し、両方の監視信号を統合する。
論文 参考訳(メタデータ) (2025-11-10T02:26:14Z) - Enhancing Transformer-Based Rerankers with Synthetic Data and LLM-Based Supervision [0.13999481573773073]
大きな言語モデル(LLM)は、その深いセマンティック理解と推論のために、再分類時に優れている。
微調整の小さなタスク固有のモデルは、より効率的な代替手段だが、通常は手動でラベル付けされたデータに頼っている。
本稿では,人間ラベルのクエリドキュメントペアの必要性を解消する新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2025-09-23T09:47:27Z) - Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - BiXSE: Improving Dense Retrieval via Probabilistic Graded Relevance Distillation [6.272555849379284]
BiXSE は2値のクロスエントロピーをグレードレバレンススコアより最適化するポイントワイズトレーニング手法である。
アノテーションと計算コストを削減して、強力なパフォーマンスを実現する。
BiXSEは、密度の高い検索モデルをトレーニングするための堅牢でスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-08-09T02:15:17Z) - Conventional Contrastive Learning Often Falls Short: Improving Dense Retrieval with Cross-Encoder Listwise Distillation and Synthetic Data [43.81779293196647]
コーパス特異的微調整レンズによる埋め込みモデルの検索効率の改善について検討した。
従来のInfoNCEのコントラスト損失を用いた微調整は、最先端モデルの有効性を低下させることが多い。
我々は、BERT埋め込みモデル間の最先端の有効性を実現する埋め込みモデルをトレーニングするために、我々のアプローチを利用する。
論文 参考訳(メタデータ) (2025-05-25T19:06:19Z) - ReasonIR: Training Retrievers for Reasoning Tasks [139.54343970560103]
ReasonIR-8Bは一般的な推論タスクのために特別に訓練された最初のレトリバーである。
新たに29.9 nDCG@10をリランカなしで、36.9 nDCG@10をリランカで達成している。
論文 参考訳(メタデータ) (2025-04-29T09:49:28Z) - Training a Utility-based Retriever Through Shared Context Attribution for Retrieval-Augmented Language Models [51.608246558235166]
SCARLetは、RALMsでユーティリティベースのレトリバーをトレーニングするためのフレームワークである。
マルチタスクの一般化とパッセージ間相互作用という2つの重要な要素が組み込まれている。
ドメイン内とドメイン外の両方で、さまざまなタスクにまたがる10のデータセットに対するアプローチを評価します。
論文 参考訳(メタデータ) (2025-04-01T09:28:28Z) - Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。
我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。
データセットの精度は6%向上した。
論文 参考訳(メタデータ) (2024-10-07T00:09:50Z) - PairDistill: Pairwise Relevance Distillation for Dense Retrieval [35.067998820937284]
本稿ではペアワイズレバレンス蒸留(Pairwise Relevance Distillation, PairDistill)を導入する。
類似した文書間の微妙な区別を提供し、密集した検索モデルの訓練を強化する。
実験の結果、PairDistillは既存の手法よりも優れており、複数のベンチマークで最新の結果が得られることがわかった。
論文 参考訳(メタデータ) (2024-10-02T09:51:42Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Balancing Reinforcement Learning Training Experiences in Interactive
Information Retrieval [19.723551683930776]
対話型情報検索(IIR)と強化学習(RL)は、対話中に学習するエージェントなど、多くの共通点を共有している。
IIRにRLメソッドをうまく適用するには、RLエージェントを訓練するための十分な関連ラベルを得ることが課題である。
本論文は、ドメインランダム化を用いて、より関連性の高い文書を合成することにより、この問題に対処する。
論文 参考訳(メタデータ) (2020-06-05T00:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。