論文の概要: enhancing reasoning accuracy in large language models during inference time
- arxiv url: http://arxiv.org/abs/2603.21301v1
- Date: Sun, 22 Mar 2026 16:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.344023
- Title: enhancing reasoning accuracy in large language models during inference time
- Title(参考訳): 推論時間における大言語モデルの推論精度の向上
- Authors: Vinay Sharma, Manish Jain,
- Abstract要約: 大規模言語モデル(LLM)は、多段階推論タスクでは信頼できないが、強力な言語能力を示すことが多い。
本研究では,LLMの推論精度を向上させるための推論時間手法について検討する。
- 参考スコア(独自算出の注目度): 1.0282918759603745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often exhibit strong linguistic abilities while remaining unreliable on multi-step reasoning tasks, particularly when deployed without additional training or fine-tuning. In this work, we study inference-time techniques to improve the reasoning accuracy of LLMs. We systematically evaluate three classes of inference-time strategies: (i) self-consistency via stochastic decoding, where the model is sampled multiple times using controlled temperature and nucleus sampling and the most frequent final answer is selected; (ii) dual-model reasoning agreement, where outputs from two independent models are compared and only consistent reasoning traces are trusted; and (iii) self-reflection, where the model critiques and revises its own reasoning. Across all evaluated methods, we employ Chain-of-Thought (CoT) [1] prompting to elicit explicit intermediate reasoning steps before generating final answers. In this work, we provide a controlled comparative evaluation across three inference-time strategies under identical prompting and verification settings. Our experiments on LLM [2] show that self-consistency with nucleus sampling and controlled temperature value yields the substantial gains, achieving a 9% to 15% absolute improvement in accuracy over greedy single-pass decoding, well-suited for low-risk domains, offering meaningful gains with minimal overhead. The dual-model approach provides additional confirmation for model reasoning steps thus more appropriate for moderate-risk domains, where higher reliability justifies additional compute. Self-reflection offers only marginal improvements, suggesting limited effectiveness for smaller non-reasoning models at inference time.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多段階推論タスク、特に追加のトレーニングや微調整なしでデプロイされた場合、信頼性が保たれる一方で、強力な言語能力を示すことが多い。
本研究では,LLMの推論精度を向上させるために,推定時間技術について検討する。
推論時間戦略の3つのクラスを体系的に評価する。
一 確率復号による自己整合性であって、制御温度及び核サンプリングを用いてモデルを複数回サンプリングし、最も頻繁な最終回答を選択すること。
2) 2つの独立モデルからの出力を比較し、一貫した推論トレースのみを信頼する二重モデル推論合意
(三)自己回帰(自己回帰)、モデルが独自の理由を批判し、修正する。
評価されたすべての方法に対して、最終回答を生成する前に明確な中間推論ステップを引き出すよう促すために、Chain-of-Thought (CoT) [1] を用いる。
本研究では,同一のプロンプトと検証設定下での3つの推論時間戦略の比較評価を行う。
LLM [2]における実験により, 核サンプリングと制御温度値との自己整合性は, 低リスク領域に適しており, 低オーバーヘッドで有意な利得が得られるとともに, 強欲な単一パス復号よりも9%から15%の精度の向上が得られた。
二重モデルアプローチは、モデル推論のステップに対する追加の確認を提供するので、より高い信頼性が追加の計算を正当化する中リスク領域により適している。
自己回帰は限界的な改善しか提供せず、推論時に小さな非推論モデルに対して限定的な効果を示唆している。
関連論文リスト
- Improving reasoning at inference time via uncertainty minimisation [1.9145422469692004]
本稿では,不確実性を最小化するための原則的戦略を提案する。
提案手法は,各推論ステップにおいて,モデルの自己確実性を最大化する継続を選択する。
初期段階に適用した自己確実性最大化は,性能向上のほとんどを説明することができることを示す。
論文 参考訳(メタデータ) (2026-03-07T11:39:06Z) - Temper-Then-Tilt: Principled Unlearning for Generative Models through Tempering and Classifier Guidance [51.532841645285835]
本研究では,タスクを目標分布に対する密度比推定としてフレーミングすることで,大規模生成モデルにおける機械学習について検討する。
左折集合がシャープで集中したデータ分布を表す場合、有限サンプルで忠実に解けないことを示す。
本稿では,基本モデルを凍結し,二段階の推論手法を適用したTemper-Then-Tilt Unlearning(T3-Unlearning)を提案する。
論文 参考訳(メタデータ) (2026-02-10T19:08:40Z) - MentorCollab: Selective Large-to-Small Inference-Time Guidance for Efficient Reasoning [85.05204262206296]
大きな推論モデル(LRM)は、長い思考の連鎖を生成することによって、強い性能を達成するが、その推論コストは高い。
小型言語モデル(SLM)はより効率的であるが、多段階推論タスクでは困難である。
本研究では, LRM が SLM を選択的かつ簡潔にガイドする推論時協調手法である MentorCollab を提案する。
論文 参考訳(メタデータ) (2026-02-05T04:58:16Z) - EpiCaR: Knowing What You Don't Know Matters for Better Reasoning in LLMs [9.412828452977553]
既存のアプローチは成功した推論パスを強化し、かなりのキャリブレーションコストを発生させる。
この失敗は、アライメントにおけるモデル崩壊の一形態として特徴づけられている。
推論性能とキャリブレーションを協調的に最適化する訓練目標として,EpiCaRを提案する。
論文 参考訳(メタデータ) (2026-01-11T06:21:13Z) - ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - Deep Hidden Cognition Facilitates Reliable Chain-of-Thought Reasoning [33.30315111732609]
Chain of Thought (CoT)推論は驚くほど深い推論能力を示している。
しかし、その信頼性はしばしば中間段階のエラーの蓄積によって損なわれる。
本稿では,本モデルの固有精度符号化を利用したCoT推論精度の校正手法を提案する。
論文 参考訳(メタデータ) (2025-07-14T07:41:35Z) - Dissecting Long-Chain-of-Thought Reasoning Models: An Empirical Study [91.78803511141975]
この研究は、強化学習のスケーリングにおける正と負のサンプルの役割に焦点を当てている。
グループ相対的政策最適化において、サンプルの半数以上がゼロの優位性を持つような実質的なデータ非効率性を同定する。
本研究では,様々な推論モデルとベンチマークの不安定な性能について検討し,不明瞭な結果を伴う不確実な問題に対する不安定性について考察した。
論文 参考訳(メタデータ) (2025-06-05T11:47:10Z) - Self-rewarding correction for mathematical reasoning [19.480508580498103]
我々は,大規模言語モデル(LLM)の自己回帰的推論について研究する。
LLMは、ステップバイステップの推論を同時に生成し、外部からのフィードバックを伴わない推論時間における出力の正しさを評価する。
本稿では,自己生成データのみを用いて自己回帰推論モデルを構築するための2段階のアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-26T23:01:16Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。