論文の概要: Logit Arithmetic Elicits Long Reasoning Capabilities Without Training
- arxiv url: http://arxiv.org/abs/2510.09354v1
- Date: Fri, 10 Oct 2025 13:07:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.00443
- Title: Logit Arithmetic Elicits Long Reasoning Capabilities Without Training
- Title(参考訳): Logit Arithmetic Elicits Long Reasoning Capability without Training
- Authors: Yunxiang Zhang, Muhammad Khalifa, Lechen Zhang, Xin Liu, Ayoung Lee, Xinliang Frederick Zhang, Farima Fatahi Bayat, Lu Wang,
- Abstract要約: 我々は、ThinkLogitが、ガイドとして、かなり小さな推論モデルを用いて、長い推論のためにターゲットとなる大きな非推論モデルを調整することができることを示す。
実験の結果、ThinkLogitとThinkLogit-DPOはそれぞれ平均精度を24.5%、29.1%改善した。
- 参考スコア(独自算出の注目度): 21.054461373109522
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models exhibit long chain-of-thought reasoning with strategies such as backtracking and self-correction, though recent studies suggest that these abilities typically require additional training. We first investigate whether such behaviors can be elicited without any training. To this end, we propose a decoding-time approach, ThinkLogit, which utilizes logit arithmetic to tune a target large non-reasoning model for long reasoning using a substantially smaller reasoning model as the guider. We then show that we can further boost its performance by training the guider model with preference optimization over correct/incorrect reasoning pairs sampled from both the target and guider model, a setup we refer to as ThinkLogit-DPO. Our experiments demonstrate that ThinkLogit and ThinkLogit-DPO achieve a relative improvement in average accuracy by 24.5% and 29.1%, respectively, over five reasoning benchmarks using the Qwen2.5-32B guided by R1-Distill-Qwen-1.5B, a model 21x smaller. Moreover, we find that ThinkLogit remains effective when the guider and target come from different model families. It is also orthogonal to post-training methods for small models, as guiders improved through supervised distillation or reinforcement learning can be directly plugged in to yield stronger large models, offering a practical path to unlock long reasoning in large-scale models without costly post-training.
- Abstract(参考訳): 大規模な推論モデルは、バックトラックや自己補正のような戦略による長い連鎖推論を示すが、最近の研究は、これらの能力が通常追加の訓練を必要とすることを示唆している。
まず,そのような行動がトレーニングなしでも引き起こせるかどうかを考察する。
そこで本研究では,ロジット算術を用いて,より小さな推論モデルを用いて,長い推論のためにターゲットとなる大きな非推論モデルをチューニングする,復号時間アプローチであるThinkLogitを提案する。
次に、ターゲットモデルとガイドモデルの両方からサンプリングされた正誤推論ペアよりも優先的な最適化で、ガイドモデルをトレーニングすることで、パフォーマンスをさらに向上できることを示し、この設定をThinkLogit-DPOと呼ぶ。
実験の結果,ThinkLogitとThinkLogit-DPOは,21倍のモデルであるR1-Distill-Qwen-1.5Bで導かれたQwen2.5-32Bを用いて,それぞれ平均精度を24.5%,29.1%向上した。
また、ThinkLogitは、ガイドとターゲットが異なるモデルファミリーから来ている場合にも有効であることがわかった。
指導的蒸留や強化学習によって改良されたガイドが直接接続され、より強力な大型モデルを得ることができ、コストのかかる後処理を伴わずに大規模モデルで長期の推論を解き放つための実践的な道筋を提供するため、小型モデルの後処理法も直交している。
関連論文リスト
- Your Models Have Thought Enough: Training Large Reasoning Models to Stop Overthinking [50.97239453902612]
大規模推論モデル(LRM)は、困難なタスクにおいて顕著なパフォーマンスを達成したが、その深い推論はしばしばかなりの計算コストを発生させる。
Evidence Accumulation Modelsにインスパイアされて、LEMは推論の初期段階で十分な情報を蓄積し、さらなる推論ステップを冗長にすることがわかった。
不要な推論を積極的に終了させるためにモデルを訓練するJust-Enough Thinking (JET)を提案する。
論文 参考訳(メタデータ) (2025-09-27T16:25:06Z) - Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models [0.41942958779358663]
本稿では,動的トレーニングをモデル化し,資源利用の最適化を支援する予測フレームワークを提案する。
モデルサイズ,初期性能,トレーニング進捗に基づく経験的スケーリング法則を導出する。
特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。
論文 参考訳(メタデータ) (2025-07-24T01:09:25Z) - Logit Arithmetic Elicits Long Reasoning Capabilities Without Training [14.015546463427732]
大きな推論モデル(LRM)は、バックトラックや自己補正といった認知戦略を含む長いチェーン・オブ・シント(CoT)を介して複雑な推論を行うことができる。
最近の研究は、いくつかのモデルは本質的にこれらの長い推論能力を持ち、余分な訓練によって解錠される可能性があることを示唆している。
本稿では,より小さなモデルをガイドとして,目標とする大規模LMを長時間の推論のために調整するための復号時間アプローチであるThinkLogitを提案する。
論文 参考訳(メタデータ) (2025-07-17T03:31:36Z) - KAT-V1: Kwai-AutoThink Technical Report [50.84483585850113]
Kwaipilot-AutoThink (KAT) はオープンソースの40B大言語モデルであり、推論集約タスクにおける過大な問題に対処するために開発された。
KATはタスクの複雑さに基づいて推論モードと非推論モードを動的に切り替える。
また、GRPOフレームワークに中間管理を組み込んだ強化学習アルゴリズムであるStep-SRPOを提案する。
論文 参考訳(メタデータ) (2025-07-11T04:07:10Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - Value-Guided Search for Efficient Chain-of-Thought Reasoning [49.971608979012366]
本稿では,長文推論トレースを用いた値モデル学習の簡易かつ効率的な手法を提案する。
250万の推論トレースのデータセットを収集して、1.5Bトークンレベルのバリューモデルをトレーニングします。
最終多数決を重み付けしたブロックワイド値誘導検索(VGS)は,標準手法よりも優れたテスト時間スケーリングを実現する。
論文 参考訳(メタデータ) (2025-05-23T01:05:07Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - ShorterBetter: Guiding Reasoning Models to Find Optimal Inference Length for Efficient Reasoning [1.0416697066889342]
そこで本研究では,手動による指導を必要とせずに,推論モデルによる最適なCoT長の学習を可能にする,簡易かつ効果的な強化学習手法を提案する。
ShorterBetterは、ドメイン内およびドメイン外推論タスクの出力長を50%-80%削減する。
我々の推論トレース分析は、不要な反復、過剰な自己検証、代替品の過剰探索を減らし、ショーターベッターが推論トレースの構造を洗練することを示している。
論文 参考訳(メタデータ) (2025-04-30T07:04:19Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。