論文の概要: Logit Arithmetic Elicits Long Reasoning Capabilities Without Training
- arxiv url: http://arxiv.org/abs/2507.12759v1
- Date: Thu, 17 Jul 2025 03:31:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.327484
- Title: Logit Arithmetic Elicits Long Reasoning Capabilities Without Training
- Title(参考訳): Logit Arithmetic Elicits Long Reasoning Capability without Training
- Authors: Yunxiang Zhang, Muhammad Khalifa, Lechen Zhang, Xin Liu, Ayoung Lee, Xinliang Frederick Zhang, Farima Fatahi Bayat, Lu Wang,
- Abstract要約: 大きな推論モデル(LRM)は、バックトラックや自己補正といった認知戦略を含む長いチェーン・オブ・シント(CoT)を介して複雑な推論を行うことができる。
最近の研究は、いくつかのモデルは本質的にこれらの長い推論能力を持ち、余分な訓練によって解錠される可能性があることを示唆している。
本稿では,より小さなモデルをガイドとして,目標とする大規模LMを長時間の推論のために調整するための復号時間アプローチであるThinkLogitを提案する。
- 参考スコア(独自算出の注目度): 14.015546463427732
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models (LRMs) can do complex reasoning via long chain-of-thought (CoT) involving cognitive strategies such as backtracking and self-correction. Recent studies suggest that some models inherently possess these long reasoning abilities, which may be unlocked via extra training. Our work first investigates whether we can elicit such behavior without any training. To this end, we propose a decoding-time approach, ThinkLogit, which utilizes logits arithmetic (Liu et al., 2024) to tune a target large LM for long reasoning using a substantially smaller model as guider. We then show that we can further boost performance by training the guider model with preference optimization over correct/incorrect reasoning pairs sampled from both the target and guider model -- a setup we refer to as ThinkLogit-DPO. Our experiments demonstrate that ThinkLogit and ThinkLogit-DPO achieve a relative improvement in pass@1 by 26% and 29%, respectively, over four mathematical datasets using the Qwen2.5-32B when guided by R1-Distill-Qwen-1.5B -- a model 21x smaller. Lastly, we show that ThinkLogit can transfer long reasoning skills acquired through reinforcement learning, improving pass@1 by 13% relative compared to the Qwen2.5-32B base model. Our work presents a computationally-efficient method to elicit long reasoning in large models with minimal or no additional training.
- Abstract(参考訳): 大きな推論モデル(LRM)は、バックトラックや自己補正といった認知戦略を含む長いチェーン・オブ・シント(CoT)を介して複雑な推論を行うことができる。
最近の研究は、いくつかのモデルは本質的にこれらの長い推論能力を持ち、余分な訓練によって解錠される可能性があることを示唆している。
我々の研究はまず、トレーニングなしでそのような行動を起こせるかどうかを調査する。
そこで本研究では,ロジット演算(Liu et al ,2024)を用いて,より小さなモデルをガイドとして,長期的推論のために目標とする大規模LMをチューニングする,復号時間アプローチThinkLogitを提案する。
次に、ターゲットモデルとガイドモデルの両方からサンプリングされた正誤推論ペアよりも優先的な最適化で、ガイドモデルをトレーニングすることで、パフォーマンスをさらに向上できることを示します。
実験の結果,ThinkLogitとThinkLogit-DPOは,21倍のモデルであるR1-Distill-Qwen-1.5Bで導かれたQwen2.5-32Bを用いて,それぞれ4つの数学的データセットに対して,pass@1の相対的な改善を26%,29%で達成した。
最後に、ThinkLogitは強化学習によって得られた長い推論スキルを伝達でき、Qwen2.5-32Bベースモデルと比較してパス@1を13%改善できることを示す。
我々の研究は、最小または追加の訓練を伴わない大規模モデルにおいて、長い推論を導出する計算効率のよい方法を提案する。
関連論文リスト
- Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。
しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。
1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Interleaved Reasoning for Large Language Models via Reinforcement Learning [22.403928213802036]
ロングチェーン・オブ・シント(CoT)は、大規模言語モデル(LLM)推論能力を向上する。
本稿では、強化学習(RL)を用いてLLMを指導し、マルチホップ質問に対する思考と回答をインターリーブする新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2025-05-26T07:58:17Z) - LLMs Can Easily Learn to Reason from Demonstrations Structure, not content, is what matters! [53.84130385074551]
大推論モデル(LRM)は、長いチェーン・オブ・シント(Long CoT)に従うことによって複雑な推論問題に取り組む
また,Large Language Model (LLM) は,データ効率の教師付き微調整 (SFT) とパラメータ効率の低い低ランク適応 (LoRA) により,Long CoT推論を効果的に学習できることを見出した。
たった17kのCoTトレーニングサンプルで、Qwen2.5-32B-Instructモデルは、幅広い数学およびコーディングベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2025-02-11T08:48:48Z) - Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning [65.2421542320293]
推論能力は汎用知能の重要な構成要素である。
OpenAIのoシリーズモデルなどのプロプライエタリ企業による最近の進歩は、推論タスクに顕著な進歩をもたらした。
本稿では、数学的推論タスクのための textbfOutcome textbfREwtextbfArd ベースの強化 textbfLearning により達成できる性能限界を追求する新しい RL フレームワーク OREAL を提案する。
論文 参考訳(メタデータ) (2025-02-10T18:57:29Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。