論文の概要: Scaling Reasoning can Improve Factuality in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.11140v1
- Date: Fri, 16 May 2025 11:39:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.793864
- Title: Scaling Reasoning can Improve Factuality in Large Language Models
- Title(参考訳): スケールする推論は、大規模言語モデルにおけるファクチュアリティを改善する
- Authors: Mike Zhang, Johannes Bjerva, Russa Biswas,
- Abstract要約: 複雑なオープンドメイン質問応答(QA)シナリオにおいて,大規模言語モデル(LLM)の推論を徹底的に検討する。
推論トレースを豊かにするために、我々は知識グラフからの事実情報を、推論トレースへの経路の形で導入する。
本研究は,1回の動作において,より小さな推論モデルにより,従来の命令調整モデルと比較して,実際の精度が顕著に向上することが示唆された。
- 参考スコア(独自算出の注目度): 7.184302333801519
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies on large language model (LLM) reasoning capabilities have demonstrated promising improvements in model performance by leveraging a lengthy thinking process and additional computational resources during inference, primarily in tasks involving mathematical reasoning (Muennighoff et al., 2025). However, it remains uncertain if longer reasoning chains inherently enhance factual accuracy, particularly beyond mathematical contexts. In this work, we thoroughly examine LLM reasoning within complex open-domain question-answering (QA) scenarios. We initially distill reasoning traces from advanced, large-scale reasoning models (QwQ-32B and DeepSeek-R1-671B), then fine-tune a variety of models ranging from smaller, instruction-tuned variants to larger architectures based on Qwen2.5. To enrich reasoning traces, we introduce factual information from knowledge graphs in the form of paths into our reasoning traces. Our experimental setup includes four baseline approaches and six different instruction-tuned models evaluated across a benchmark of six datasets, encompassing over 22.6K questions. Overall, we carry out 168 experimental runs and analyze approximately 1.7 million reasoning traces. Our findings indicate that, within a single run, smaller reasoning models achieve noticeable improvements in factual accuracy compared to their original instruction-tuned counterparts. Moreover, our analysis demonstrates that adding test-time compute and token budgets factual accuracy consistently improves by 2-8%, further confirming the effectiveness of test-time scaling for enhancing performance and consequently improving reasoning accuracy in open-domain QA tasks. We release all the experimental artifacts for further research.
- Abstract(参考訳): 大規模言語モデル推論能力(LLM)に関する最近の研究は、数学的推論を含むタスク(Muennighoff et al , 2025)において、推論中に長い思考プロセスと追加の計算資源を活用することにより、モデル性能の有望な改善を実証している。
しかし、より長い推論連鎖が本質的に事実の正確性、特に数学的文脈を超えて向上するかどうかは不明なままである。
本研究では、複雑なオープンドメイン質問応答(QA)シナリオにおけるLLM推論について、徹底的に検討する。
まず,先進的な大規模推論モデル(QwQ-32BとDeepSeek-R1-671B)から推論トレースを蒸留し,さらにQwen2.5に基づくより小型の命令チューニング型から大規模アーキテクチャまで,さまざまなモデルを微調整する。
推論トレースを豊かにするために、我々は知識グラフからの事実情報を、推論トレースへの経路の形で導入する。
実験的なセットアップには、4つのベースラインアプローチと、6つのデータセットのベンチマークで評価された6つの異なる命令チューニングモデルが含まれており、22.6K以上の質問が含まれている。
総合的に168回の実験を行い、約170万の推論トレースを分析した。
本研究は,1回の動作において,より小さな推論モデルにより,従来の命令調整モデルと比較して,実際の精度が顕著に向上することが示唆された。
さらに,テストタイム計算とトークン予算の実際の精度が2~8%向上し,テストタイムスケーリングの有効性が向上し,オープンドメインQAタスクにおける推論精度が向上したことを示す。
さらなる研究のために、実験的な成果物を全てリリースします。
関連論文リスト
- Phi-4-reasoning Technical Report [42.508165017775]
Phi-4-reasoningは14ビリオンのパラメータ推論モデルであり、複雑な推論タスクにおいて高い性能を実現する。
我々はPhi-4-reasoning-plusを開発した。
どちらのモデルもDeepSeek-R1-Distill-Llama-70Bモデルのような大きなオープンウェイトモデルよりも優れており、完全なDeepSeek-R1モデルのパフォーマンスレベルに近づいている。
論文 参考訳(メタデータ) (2025-04-30T05:05:09Z) - Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models [48.98109982725689]
我々は、オープンソースのDeepSeek-R1-Distilled QwenおよびLLaMAファミリーを評価し、量子化推論モデルに関する最初の体系的研究を行う。
本研究は,様々なビット幅の最先端アルゴリズムを用いて,重み,KVキャッシュ,アクティベーション量子化について検討する。
モデルのサイズ、モデルの起源、タスクの難しさを、パフォーマンスの重要な決定要因とみなす。
論文 参考訳(メタデータ) (2025-04-07T08:22:45Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning [113.49074603075032]
近年の研究では、モデルをより長い思考の連鎖(CoTs)を通して考える時間を増やすことで、複雑な推論タスクにおいて大幅な改善が得られることが示されている。
より長いCoTによるスケーリングが、特定のドメインにおけるLarge Language Model(LLM)の推論性能を損なうかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-25T10:48:05Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。
私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。