論文の概要: Follow the Path: Reasoning over Knowledge Graph Paths to Improve LLM Factuality
- arxiv url: http://arxiv.org/abs/2505.11140v2
- Date: Fri, 26 Sep 2025 09:25:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.343561
- Title: Follow the Path: Reasoning over Knowledge Graph Paths to Improve LLM Factuality
- Title(参考訳): パスをフォローする: LLMのファクチュアリティを改善するための知識グラフパスの推論
- Authors: Mike Zhang, Johannes Bjerva, Russa Biswas,
- Abstract要約: 大規模な推論モデルから導出することで、推論トレースの事実性を向上する手法であるfs1を紹介する。
我々は、3.9Kの事実的根拠に基づく推論トレースに基づいて8つの命令調整型大規模言語モデル(LLM)を微調整する。
その結果,fs1調整モデルでは,命令調整モデルよりも6~14絶対点の並列サンプリングの方が優れていた。
- 参考スコア(独自算出の注目度): 13.453581744429352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce fs1, a simple yet effective method that improves the factuality of reasoning traces by sourcing them from large reasoning models (e.g., DeepSeek-R1) and grounding them by conditioning on knowledge graph (KG) paths. We fine-tune eight instruction-tuned Large Language Models (LLMs) on 3.9K factually grounded reasoning traces and rigorously evaluate them on six complex open-domain question-answering (QA) benchmarks encompassing 23.9K questions. Our results demonstrate that our fs1-tuned model (32B parameters) consistently outperforms instruction-tuned counterparts with parallel sampling by 6-14 absolute points (pass@$16$). Our detailed analysis shows that fs1 considerably improves model performance over more complex questions (requiring 3 or more hops on KG paths) and numerical answer types compared to the baselines. Furthermore, in single-pass inference, we notice that smaller LLMs show the most improvements. While prior works demonstrate the effectiveness of reasoning traces primarily in the STEM domains, our work shows strong evidence that anchoring reasoning to factual KG paths is a critical step in transforming LLMs for reliable knowledge-intensive tasks.
- Abstract(参考訳): 本稿では,fs1を提案する。fs1は,大規模推論モデル(例えばDeepSeek-R1)から推論トレースを抽出し,知識グラフ(KG)パスを条件付けすることで,推論トレースの事実性を向上する,シンプルで効果的な手法である。
我々は、3.9Kの事実的根拠を持つ推論トレースに基づいて8つの命令チューニングされた大規模言語モデル(LLM)を微調整し、23.9Kの質問を含む6つの複雑なオープンドメイン質問応答(QA)ベンチマークでそれらを厳密に評価する。
我々のfs1調整モデル(32Bパラメータ)は6-14絶対点(pass@16$)の並列サンプリングで命令調整モデルよりも一貫して優れていた。
より詳細な分析により,fs1は,より複雑な質問(KG経路上のホップ3つ以上の要求)と,ベースラインと比較した場合の数値解型に対して,モデル性能を著しく向上させることが示された。
さらに、シングルパス推論では、より小さなLSMが最も改善されていることが分かる。
先行研究は、主にSTEM領域における推論トレースの有効性を示すものであるが、我々の研究は、現実的なKGパスへのアンカー推論が、信頼性の高い知識集約タスクのためにLLMを変換する重要なステップであることを示す強力な証拠を示している。
関連論文リスト
- Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。
この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文 参考訳(メタデータ) (2025-07-25T10:34:51Z) - Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination [67.67725938962798]
大規模なWebスケールコーパスの事前トレーニングは、広く使用されているベンチマークでデータ汚染の影響を受けやすいQwen2.5が残る。
我々はRandomCalculationと呼ばれる任意の長さと難易度を持つ完全クリーンな算術問題を生成するジェネレータを導入する。
精度の高い報酬信号のみがベースモデルの性能境界を超える安定した改善をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-14T17:55:15Z) - Think or Not? Exploring Thinking Efficiency in Large Reasoning Models via an Information-Theoretic Lens [51.90059610606049]
本稿では,情報理論レンズによる推論プロセスの効率を再考する。
本稿では,理想的な推論経路と段階的な情報提供から分岐を定量化するために,InfoBias と InfoGain という2つの指標を提案する。
これらの知見に触発されて,信頼度が十分に高ければ推論を動的に停止する,エントロピーに基づく適応的思考戦略を導入する。
論文 参考訳(メタデータ) (2025-05-23T13:38:56Z) - Phi-4-reasoning Technical Report [42.508165017775]
Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。
我々はPhi-4-reasoning-plusを開発した。
どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
論文 参考訳(メタデータ) (2025-04-30T05:05:09Z) - Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - LIMO: Less is More for Reasoning [23.312893016642096]
数例の例で、洗練された数学的推論が実現可能であることを実証する。
LIMOはAIME24では63.3%,MATH500では95.6%の精度を実現している。
LIMOは、様々なベンチマークで45.8%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2025-02-05T17:23:45Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。