論文の概要: From Facts to Conclusions : Integrating Deductive Reasoning in Retrieval-Augmented LLMs
- arxiv url: http://arxiv.org/abs/2512.16795v1
- Date: Thu, 18 Dec 2025 17:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.185239
- Title: From Facts to Conclusions : Integrating Deductive Reasoning in Retrieval-Augmented LLMs
- Title(参考訳): 事実から結論へ : 検索型LLMにおける推論推論の統合
- Authors: Shubham Mishra, Samyek Jain, Gorang Mehrishi, Shiv Tiwari, Harsh Sharma, Pratik Narang, Dhruv Kumar,
- Abstract要約: 本稿では,3段階にまたがる構造的,解釈可能な推論を付加する推論トレース拡張RAGフレームワークを提案する。
矛盾認識信頼スコア(CATS)パイプラインを導入し、基礎性、事実的正確性、拒絶精度、紛争行動アライメントを評価する。
- 参考スコア(独自算出の注目度): 5.838119242443381
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieval-Augmented Generation (RAG) grounds large language models (LLMs) in external evidence, but fails when retrieved sources conflict or contain outdated or subjective information. Prior work address these issues independently but lack unified reasoning supervision. We propose a reasoning-trace-augmented RAG framework that adds structured, interpretable reasoning across three stages : (1) document-level adjudication, (2) conflict analysis, and (3) grounded synthesis, producing citation-linked answers or justified refusals. A Conflict-Aware Trust-Score (CATS) pipeline is introduced which evaluates groundedness, factual correctness, refusal accuracy, and conflict-behavior alignment using an LLM-as-a-Judge. Our 539-query reasoning dataset and evaluation pipeline establish a foundation for conflict-aware, interpretable RAG systems. Experimental results demonstrate substantial gains over baselines, most notably with Qwen, where Supervised Fine-Tuning improved End-to-End answer correctness from 0.069 to 0.883 and behavioral adherence from 0.074 to 0.722.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) は、大規模な言語モデル(LLM)を外部の証拠として扱うが、検索されたソースが競合したり、古い情報や主観的な情報を含むと失敗する。
以前の作業では、これらの問題には独立して対処するが、統一的な推論の監督は欠如している。
本稿では,(1)文書レベルの述語化,(2)紛争分析,(3)基底合成,引用関連回答の生成,あるいは正当化された拒絶の3段階にわたって,構造化された解釈可能な推論を付加する推論トレース拡張RAGフレームワークを提案する。
LLM-as-a-Judgeを用いて、基礎性、事実的正確性、拒絶精度、紛争行動アライメントを評価する、紛争認識信頼スコア(CATS)パイプラインが導入された。
当社の539クエリ推論データセットと評価パイプラインは、競合を認識し、解釈可能なRAGシステムの基礎を確立しています。
特にQwenでは, Supervised Fine-Tuning により 0.069 から 0.883 への終末回答正当性が向上し, 行動付着度 0.074 から 0.722 が向上した。
関連論文リスト
- Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - Probing Latent Knowledge Conflict for Faithful Retrieval-Augmented Generation [46.03923254984181]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の現実性を高めるための強力なパラダイムとして登場した。
既存の文脈忠実性を改善するアプローチは、プロンプトエンジニアリング、デコード制約、報酬に基づく微調整など、外部からの介入に依存している。
文脈を微粒な文レベルの知識に分解するフレームワークであるCLEAR(Conflict-Localized and Enhanced Attention for RAG)を提案する。
論文 参考訳(メタデータ) (2025-10-14T12:48:24Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - Rethinking All Evidence: Enhancing Trustworthy Retrieval-Augmented Generation via Conflict-Driven Summarization [11.875601079871865]
本稿では, 信頼性向上のための新しいフレームワークであるCARE-RAG(Conflict-Aware and Reliable Evidence for RAG)を提案する。
コンフリクトの検出と要約のために、3B LLaMA3.2モデルを蒸留し、コンフリクト駆動の要約を行い、複数のソース間で信頼性の高い合成を可能にする。
検索データを用いたQAデータセットの改訂実験により、CARE-RAGは強いRAGベースライン、特にノイズや矛盾するエビデンスのあるシナリオにおいて、一貫して優れることが示された。
論文 参考訳(メタデータ) (2025-07-02T01:39:49Z) - CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs [15.170312674645535]
CRAVE は、説明可能なクレーム VErification に対する Conflicting Reasoning Approach である。
大規模な言語モデルによって推論される矛盾する理性に基づいて、複雑なクレームを検証することができる。
CRAVEは最先端の手法よりもはるかに優れた性能を実現している。
論文 参考訳(メタデータ) (2025-04-21T07:20:31Z) - Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。
RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。
批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。
AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文 参考訳(メタデータ) (2025-04-21T04:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。