論文の概要: Search for Coverage: Learning Coverage-Aware Retrieval with Augmented Sub-Question Answerability
- arxiv url: http://arxiv.org/abs/2605.28522v1
- Date: Wed, 27 May 2026 14:20:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.107472
- Title: Search for Coverage: Learning Coverage-Aware Retrieval with Augmented Sub-Question Answerability
- Title(参考訳): カバレッジの探索: 追加サブクエストアンサーバビリティによるカバーアウェア検索
- Authors: Jia-Huei Ju, Eugene Yang, Trevor Adriaanse, Suzan Verberne, Andrew Yates,
- Abstract要約: 本研究では,包括的検索シナリオに最適化された高密度検索手法であるCoveRを提案する。
CoveRは、カバーベースのコントラストと蒸留の目的を訓練したバイエンコーダである。
実験の結果,CoveRは高密度検索ベースラインよりもナゲットカバレッジを10%向上させることがわかった。
- 参考スコア(独自算出の注目度): 27.042345058346694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form Retrieval-Augmented Generation (RAG) brings the challenge of coverage-based ranking, because ranking methods must ensure the inclusion of comprehensive relevant nuggets (i.e., facts), which can thereby be synthesized into a comprehensive output. In this work, we propose CoveR (Our code is available at https://github.com/DylanJoo/CoveR ) a dense retrieval method optimized for coverage-aware retrieval scenarios. CoveR is a bi-encoder trained with the coverage-based contrastive and distillation objectives, which enables CoveR to capture diverse aspects of information needs. To train CoveR, we create the SCOPE dataset, (Our training data is available at https://huggingface.co/datasets/DylanJHJ/scope ) which comprises 90K training pairs from Researchy Questions with synthetic coverage signals augmented from sub-question answerability judgments generated by LLMs. Our empirical experiments show that CoveR enhances nugget coverage by 10\% over strong dense retrieval baselines without sacrificing its relevance-based retrieval capability. Further ablation studies validate the importance of our proposed learning method, showing that CoveR achieves a superior trade-off between relevance- and coverage-based ranking, which is essential for long-form RAG.
- Abstract(参考訳): ロングフォーム検索拡張生成(RAG)は、包括的な関連するナゲット(事実)を包含し、それによって包括的なアウトプットに合成しなくてはならないため、カバレッジベースのランキングの課題をもたらす。
本研究では,CoveR(我々のコードはhttps://github.com/DylanJoo/CoveR)を提案する。
CoveRは、カバレッジベースのコントラストと蒸留の目標をトレーニングしたバイエンコーダで、CoveRが情報ニーズのさまざまな側面をキャプチャすることを可能にする。
CoveRをトレーニングするために、SCOPEデータセットを作成します(私たちのトレーニングデータはhttps://huggingface.co/datasets/DylanJHJ/scope で利用可能です)。
実験により,CoveRは,その関連性に基づく検索能力を犠牲にすることなく,高密度検索ベースライン上でナゲットカバレッジを10倍に向上することを示した。
さらなるアブレーション研究により,提案手法の重要性が検証され,CoveRは長大なRAGに欠かせない,関連性とカバレッジに基づくランキングのトレードオフが優れていることが示された。
関連論文リスト
- Cycle-Consistent Search: Question Reconstructability as a Proxy Reward for Search Agent Training [80.20022221643414]
Cycle-Consistent Searchは、検索エージェントを訓練するための金色のスーパービジョンのないフレームワークである。
CCSは教師付きベースラインに匹敵する性能を示す。
これらの結果から,CCSは金の監督が不可能な環境で検索エージェントを訓練するためのスケーラブルな訓練パラダイムを提供する可能性が示唆された。
論文 参考訳(メタデータ) (2026-04-14T17:00:18Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - W-RAG: Weakly Supervised Dense Retrieval in RAG for Open-domain Question Answering [28.79851078451609]
W-RAGは、下流タスクから弱いトレーニング信号を抽出し、検索者がタスクに最も利益をもたらすパスを優先順位付けするように微調整する手法である。
我々は4つの公開可能なOpenQAデータセットの包括的な実験を行い、我々のアプローチが検索とOpenQAのパフォーマンスを向上させることを実証した。
論文 参考訳(メタデータ) (2024-08-15T22:34:44Z) - CORE: Mitigating Catastrophic Forgetting in Continual Learning through Cognitive Replay [14.169588352209907]
コグニティブ・リプレイ(CORE)は、人間の認知的レビュープロセスからインスピレーションを得ている。
COREはスプリットCIFAR10で平均37.95%の精度を達成し、最高のベースライン法を6.52%上回っている。
これにより、最上位のベースラインに比べて、最も貧弱なパフォーマンスタスクの精度が6.30%向上する。
論文 参考訳(メタデータ) (2024-02-02T12:04:44Z) - RLSAC: Reinforcement Learning enhanced Sample Consensus for End-to-End
Robust Estimation [74.47709320443998]
RLSAC(Reinforcement Learning enhanced SAmple Consensus framework for end-to-end robust estimation)を提案する。
RLSACはグラフニューラルネットワークを用いて、データとメモリの特徴の両方を利用して探索方向を案内し、次の最小セットをサンプリングする。
実験の結果, RLSACは特徴から学習し, より優れた仮説を徐々に探求できることがわかった。
論文 参考訳(メタデータ) (2023-08-10T03:14:19Z) - Noise-Robust Dense Retrieval via Contrastive Alignment Post Training [89.29256833403167]
Contrastive Alignment POst Training (CAPOT) は、指数再生を必要とせず、モデルロバスト性を改善する高効率な微調整法である。
CAPOTはドキュメントエンコーダを凍結することで堅牢な検索を可能にし、クエリエンコーダはノイズの多いクエリを修正されていないルートに整列させる。
MSMARCO、Natural Questions、Trivia QAパス検索のCAPOTノイズ変動を評価し、CAPOTがオーバーヘッドを伴わないデータ増大に類似した影響があることを発見した。
論文 参考訳(メタデータ) (2023-04-06T22:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。