論文の概要: EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes
- arxiv url: http://arxiv.org/abs/2509.00877v2
- Date: Sun, 21 Sep 2025 07:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.563858
- Title: EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes
- Title(参考訳): EviNote-RAG: Answer-Supportive Evidence NotesによるRAGモデルの強化
- Authors: Yuqin Dai, Guoqing Wang, Yuan Wang, Kairan Dou, Kaichen Zhou, Zhanwei Zhang, Shuo Yang, Fei Tang, Jun Yin, Pengyu Zeng, Zhenzhe Ying, Can Yi, Changhua Meng, Yuchen Zhou, Yongliang Shen, Shuai Lu,
- Abstract要約: EviNote-RAGは検索ノート・アンサーのワークフローに従うフレームワークである。
生の外部情報を直接推論する代わりに、モデルが最初にサポート・エビデンス・ノートを生成する。
EviNote-RAGは最先端のパフォーマンスを実現し、回答の正確性、トレーニングの安定性、堅牢性、効率性を向上する。
- 参考スコア(独自算出の注目度): 39.61443457073034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) has advanced open-domain question answering by incorporating external information into model reasoning. However, effectively leveraging external information to enhance reasoning presents the following challenges: (1) low signal-to-noise ratio, where answer-supportive external information is diluted by irrelevant material, and (2) error accumulation, which arises in multi-hop reasoning when incomplete or misleading information is incorporated. To address these challenges, we introduce EviNote-RAG, a framework that follows a retrieve-note-answer workflow. Instead of reasoning directly over raw external information, the model first produces Supportive-Evidence Notes (SENs), which concisely preserve answer-critical information and explicitly mark key and uncertainty information to improve accuracy. We further design an entailment-based Evidence Quality Reward (EQR) to ensure that SENs are logically sufficient to derive the final answer, thereby enhancing SENs' quality. Experiments on both in-domain and out-of-domain QA benchmarks show that EviNote-RAG achieves state-of-the-art performance, improving answer accuracy, training stability, robustness, and efficiency. In particular, it yields relative F1 gains of 20% on HotpotQA (+0.093), 40% on Bamboogle (+0.151), and 91% on 2Wiki (+0.256), benefiting from improvements in the reasoning process.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG)は、外部情報をモデル推論に組み込むことで、高度なオープンドメイン質問応答を実現する。
しかし, 外部情報を効果的に活用して推論を強化することは, 1) 応答支援外部情報を無関係材料で希釈する低信号対雑音比, 2) 不完全情報や誤解を招く情報を組み込んだ場合のマルチホップ推論において発生する誤差蓄積といった課題を提起する。
これらの課題に対処するため,検索ノート-回答ワークフローに従うフレームワークであるEviNote-RAGを紹介した。
モデルは、生の外部情報を直接推論する代わりに、最初にSEN(Supportive-Evidence Notes)を生成し、応答クリティカル情報を簡潔に保存し、キーと不確実性を明示的にマークし、精度を向上させる。
我々はさらに、論理的にSENが最終回答を導き出すのに十分なものであることを保証し、SENの品質を向上させるために、entailment-based Evidence Quality Reward (EQR) を設計する。
ドメイン内およびドメイン外QAベンチマークの実験では、EviNote-RAGが最先端のパフォーマンスを実現し、回答精度、トレーニング安定性、堅牢性、効率性が向上している。
特に、HotpotQA(+0.093)で20%、Bamboogle(+0.151)で40%、2Wiki(+0.256)で91%のF1ゲインを得る。
関連論文リスト
- RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - From Faithfulness to Correctness: Generative Reward Models that Think Critically [40.07140704454647]
本稿では,批判的思考能力を持つ報酬モデルを実現するために,思考監督リワードモデル(TRM)を提案する。
問合せ、回答、支援文書が与えられたとき、TRMはまず各回答文の忠実さを支援文書に評価し、その後、文レベルの正しさを評価するための推論ステップを適用する。
論文 参考訳(メタデータ) (2025-09-29T19:06:56Z) - Deliberative Reasoning Network: An Uncertainty-Driven Paradigm for Belief-Tracked Inference with Pretrained Language Models [7.095344389368656]
Deliberative Reasoning Network (DRN) は、確率から不確実性への論理的推論を再構成する新しいパラダイムである。
DRNは、信念状態を明示的に追跡し、競合する仮説の不確実性を定量化することによって、本質的な解釈可能性を達成する。
我々は、DRNを、より信頼できるAIシステムを構築するための、基礎的で検証可能なシステム2推論コンポーネントとして位置付ける。
論文 参考訳(メタデータ) (2025-08-06T11:33:35Z) - Rethinking All Evidence: Enhancing Trustworthy Retrieval-Augmented Generation via Conflict-Driven Summarization [11.875601079871865]
本稿では, 信頼性向上のための新しいフレームワークであるCARE-RAG(Conflict-Aware and Reliable Evidence for RAG)を提案する。
コンフリクトの検出と要約のために、3B LLaMA3.2モデルを蒸留し、コンフリクト駆動の要約を行い、複数のソース間で信頼性の高い合成を可能にする。
検索データを用いたQAデータセットの改訂実験により、CARE-RAGは強いRAGベースライン、特にノイズや矛盾するエビデンスのあるシナリオにおいて、一貫して優れることが示された。
論文 参考訳(メタデータ) (2025-07-02T01:39:49Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Attributing Response to Context: A Jensen-Shannon Divergence Driven Mechanistic Study of Context Attribution in Retrieval-Augmented Generation [52.3707788779464]
我々は、コンテキストに対する属性応答(ARC-JSD)のための新しいJensen-Shannon Divergence駆動方式を提案する。
ARC-JSDは、追加の微調整、勾配計算、サロゲートモデリングなしで、重要な文脈文の効率的かつ正確な識別を可能にする。
TyDi QA, Hotpot QA, Musique など,様々なスケールの命令調整 LLM を用いたRAG ベンチマークの評価により,精度が向上し,計算効率が向上した。
論文 参考訳(メタデータ) (2025-05-22T09:04:03Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - AlignRAG: Leveraging Critique Learning for Evidence-Sensitive Retrieval-Augmented Reasoning [61.28113271728859]
RAGは知識ベースで大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
標準的なRAGパイプラインは、モデル推論が取得した証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
本研究では,RAGをRetrieval-Augmented Reasoningと解釈し,中心的だが未探索な問題であるtextitReasoning Misalignmentを同定する。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z) - ParamMute: Suppressing Knowledge-Critical FFNs for Faithful Retrieval-Augmented Generation [91.20492150248106]
本研究では,不誠実な生成の背後にある内部メカニズムを解明し,不均等に活性化される中深度フィードフォワードネットワーク(FFN)のサブセットを同定する。
本研究では,不信感関連FFNの活性化を抑制することにより,文脈的忠実度を向上させるフレームワークであるParametric Knowledge Mutingを提案する。
実験結果から,ParamMuteはCoFaithfulQAと確立されたConFiQAベンチマークの両方の信頼度を大幅に向上し,パラメトリックメモリへの依存度を大幅に低下させることが示された。
論文 参考訳(メタデータ) (2025-02-21T15:50:41Z) - InstructRAG: Instructing Retrieval-Augmented Generation via Self-Synthesized Rationales [14.655518998487237]
InstructRAGを提案する。そこでは、LMが自己合成的理性を通して認知過程を明示的に学習する。
インストラクションRAGは追加の監視を必要としないため、予測された回答の検証が容易になる。
実験によると、InstructRAGはトレーニング不要とトレーニング可能な両方のシナリオにおいて、既存のRAGメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2024-06-19T15:25:29Z) - Word-Level ASR Quality Estimation for Efficient Corpus Sampling and
Post-Editing through Analyzing Attentions of a Reference-Free Metric [5.592917884093537]
品質推定(QE)メトリクスのポテンシャルは、ASRシステムにおける説明可能な人工知能(XAI)を強化する新しいツールとして導入され、評価される。
NoRefERメトリックの能力は、単語レベルの誤りを識別し、ASR仮説を補うのに役立つ。
論文 参考訳(メタデータ) (2024-01-20T16:48:55Z) - Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models [54.55088169443828]
CoN(Chain-of-Noting)は、ノイズや無関係な文書、未知のシナリオの処理において、ALMの堅牢性を改善することを目的とした、新しいアプローチである。
CoNは、完全にノイズの多い検索された文書が与えられるEMスコアの+7.9と、トレーニング済みの知識範囲外にあるリアルタイム質問に対する拒絶率+10.5の平均的な改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T18:54:53Z) - Self-RAG: Learning to Retrieve, Generate, and Critique through
Self-Reflection [74.51523859064802]
我々は、自己回帰検索拡張生成(Self-RAG)と呼ばれる新しいフレームワークを導入する。
自己RAGは、検索と自己回帰によってLMの品質と事実性を高める。
様々なタスクセットにおいて、最先端のLCMや検索強化モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-10-17T18:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。