論文の概要: ARK: Answer-Centric Retriever Tuning via KG-augmented Curriculum Learning
- arxiv url: http://arxiv.org/abs/2511.16326v1
- Date: Thu, 20 Nov 2025 13:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-21 17:08:52.629672
- Title: ARK: Answer-Centric Retriever Tuning via KG-augmented Curriculum Learning
- Title(参考訳): ARK:KG強化カリキュラム学習による回答中心レトリバーチューニング
- Authors: Jiawei Zhou, Hang Ding, Haiyun Jiang,
- Abstract要約: 本稿では,アンサーアライメントのためのレトリバーを最適化するファインチューニングフレームワークを提案する。
まず,その正解の正解率を評価することによって,高品質な正のチャンクを同定する。
次に、カリキュラムベースのコントラスト学習スキームを用いて、レトリバーを微調整する。
- 参考スコア(独自算出の注目度): 17.026973494557303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has emerged as a powerful framework for knowledge-intensive tasks, yet its effectiveness in long-context scenarios is often bottlenecked by the retriever's inability to distinguish sparse yet crucial evidence. Standard retrievers, optimized for query-document similarity, frequently fail to align with the downstream goal of generating a precise answer. To bridge this gap, we propose a novel fine-tuning framework that optimizes the retriever for Answer Alignment. Specifically, we first identify high-quality positive chunks by evaluating their sufficiency to generate the correct answer. We then employ a curriculum-based contrastive learning scheme to fine-tune the retriever. This curriculum leverages LLM-constructed Knowledge Graphs (KGs) to generate augmented queries, which in turn mine progressively challenging hard negatives. This process trains the retriever to distinguish the answer-sufficient positive chunks from these nuanced distractors, enhancing its generalization. Extensive experiments on 10 datasets from the Ultradomain and LongBench benchmarks demonstrate that our fine-tuned retriever achieves state-of-the-art performance, improving 14.5% over the base model without substantial architectural modifications and maintaining strong efficiency for long-context RAG. Our work presents a robust and effective methodology for building truly answer-centric retrievers.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は知識集約型タスクの強力なフレームワークとして登場したが、長いコンテキストシナリオにおけるその有効性は、疎小で重要な証拠を区別できないためにしばしばボトルネックとなる。
クエリとドキュメントの類似性に最適化された標準レトリバーは、正確な回答を生成するというダウンストリームの目標とよく一致しない。
このギャップを埋めるために,アンサーアライメントのためのレトリバーを最適化するファインチューニングフレームワークを提案する。
具体的には,まず,その正解率を評価することによって,高品質な正のチャンクを同定する。
次に、カリキュラムベースのコントラスト学習スキームを用いて、レトリバーを微調整する。
このカリキュラムは、LLM構築の知識グラフ(KG)を利用して、拡張クエリを生成する。
このプロセスは、解答に十分な正のチャンクとこれら不規則な散逸物とを区別するよう、レトリバーを訓練し、その一般化を促進させる。
Ultra DomainとLongBenchベンチマークから得られた10のデータセットに対する大規模な実験により、我々の微調整された検索機は最先端のパフォーマンスを達成し、アーキテクチャの大幅な変更を伴わずにベースモデルよりも14.5%向上し、長いコンテキストRAGの強い効率を維持していることが示された。
我々の研究は、真に回答中心のレトリバーを構築するための堅牢で効果的な方法論を提示します。
関連論文リスト
- SIRAG: Towards Stable and Interpretable RAG with A Process-Supervised Multi-Agent Framework [7.37561751991963]
本稿では,レシーバとジェネレータのギャップを埋めるプロセス管理型マルチエージェントフレームワークを提案する。
提案するフレームワークはモジュール式でプラグアンドプレイで、レトリバーやジェネレータを変更する必要はない。
論文 参考訳(メタデータ) (2025-09-17T09:09:28Z) - LTRR: Learning To Rank Retrievers for LLMs [53.285436927963865]
ルーティングベースのRAGシステムは、単一リトリバーベースのシステムよりも優れていることを示す。
パフォーマンス向上は、特にAnswer Correctness(AC)メトリックでトレーニングされたモデルで顕著である。
SIGIR 2025 LiveRAG チャレンジの一環として,提案システムを用いて提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-16T17:53:18Z) - ReasonIR: Training Retrievers for Reasoning Tasks [139.54343970560103]
ReasonIR-8Bは一般的な推論タスクのために特別に訓練された最初のレトリバーである。
新たに29.9 nDCG@10をリランカなしで、36.9 nDCG@10をリランカで達成している。
論文 参考訳(メタデータ) (2025-04-29T09:49:28Z) - Lightweight and Direct Document Relevance Optimization for Generative Information Retrieval [49.669503570350166]
生成情報検索(GenIR)は、文書識別子(ドシデント)生成タスクとして文書検索を定式化する有望なニューラル検索パラダイムである。
既存のGenIRモデルはトークンレベルのミスアライメントに悩まされており、次のトークンを予測するためにトレーニングされたモデルは、ドキュメントレベルの関連性を効果的にキャプチャできないことが多い。
本稿では,トークンレベルのドシデント生成と文書レベルのドシデンス推定をペアのランク付けによる直接最適化により整合するダイレクトドキュメントレバレンス最適化(DDRO)を提案する。
論文 参考訳(メタデータ) (2025-04-07T15:27:37Z) - OpenRAG: Optimizing RAG End-to-End via In-Context Retrieval Learning [13.181087031343619]
本稿では,レトリバーを調整してコンテキスト内の関連性を捉えることで,エンドツーエンドに最適化されたRAGフレームワークであるOpenRAGを紹介する。
幅広いタスクにわたる実験により、OpenRAGは、レトリバーをエンドツーエンドにチューニングすることで、元のレトリバーよりも4.0%の一貫した改善をもたらすことを示した。
論文 参考訳(メタデータ) (2025-03-11T13:04:05Z) - Chain-of-Retrieval Augmented Generation [91.02950964802454]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - Repoformer: Selective Retrieval for Repository-Level Code Completion [30.706277772743615]
検索強化生成(RAG)の最近の進歩は、リポジトリレベルのコード補完の新たな時代が始まった。
本稿では,不要な場合の検索を回避するため,選択的なRAGフレームワークを提案する。
我々のフレームワークは、異なる世代モデル、レトリバー、プログラミング言語に対応できることを示します。
論文 参考訳(メタデータ) (2024-03-15T06:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。