論文の概要: Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic
- arxiv url: http://arxiv.org/abs/2509.01363v1
- Date: Mon, 01 Sep 2025 11:04:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.655977
- Title: Reasoning Vectors: Transferring Chain-of-Thought Capabilities via Task Arithmetic
- Title(参考訳): Reasoning Vectors: Task ArithmeticによるChain-of-Thought機能移行
- Authors: Mohammad Zbeeb, Hasan Abed Al Kader Hammoud, Bernard Ghanem,
- Abstract要約: 大規模言語モデルは複雑な推論タスクをマスターするために、強化学習のようなコストのかかる最適化を必要とすることが多い。
この研究は、ひとたび学習された推論能力を、コンパクトなタスクベクトルとしてモデル間で抽出し、伝達できることを実証する。
- 参考スコア(独自算出の注目度): 51.41777906371754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models often require costly optimization, such as reinforcement learning, to master complex reasoning tasks. This work demonstrates that reasoning ability, once learned, can be extracted and transferred between models as a compact task vector. We source two publicly available, identically initialized Qwen2.5 models, one fine-tuned with supervised fine-tuning (SFT) and the other with group relative policy optimization (GRPO) on the same dataset. From these, we extract a reasoning vector: $v_{\text{reason}} = \theta_{\text{GRPO}} - \theta_{\text{SFT}}$. We hypothesize that this vector captures the reasoning capability instilled by reinforcement learning while factoring out shared knowledge from the SFT process. When added to compatible instruction-tuned models through simple arithmetic, this vector consistently improves performance across diverse reasoning benchmarks: GSM8K (+4.9%), HumanEval (+4.3%), SciQ (+1.7%), and BigBenchHard (+12.3% for the 1.5B model). The performance improvements persist under adversarial conditions. Conversely, subtracting the vector causes significant performance degradation (-11.8% on GSM8K), demonstrating the vector's strong contribution to the model's reasoning abilities. This work shows how reasoning capabilities, typically developed through expensive training, can be extracted from existing open-source models and reused through simple tensor arithmetic, offering a practical way to enhance models by recycling prior computational investments.
- Abstract(参考訳): 大規模言語モデルは複雑な推論タスクをマスターするために、強化学習のようなコストのかかる最適化を必要とすることが多い。
この研究は、ひとたび学習された推論能力を、コンパクトなタスクベクトルとしてモデル間で抽出し、伝達できることを実証する。
我々は、同一の初期化Qwen2.5モデルと、教師付き微調整(SFT)と、同じデータセット上でグループ相対ポリシー最適化(GRPO)の2つのモデルを公開している。
以下から、推論ベクトルを抽出する。 $v_{\text{reason}} = \theta_{\text{GRPO}} - \theta_{\text{SFT}}$。
我々は,このベクトルが,SFTプロセスから共有知識を抽出しながら,強化学習によってもたらされる推論能力を捉えることを仮定する。
GSM8K (+4.9%)、HumanEval (+4.3%)、SciQ (+1.7%)、BigBenchHard (+12.3%)といった様々な推論ベンチマークで互換性のある命令調整モデルに単純な算術で加えると、このベクトルは一貫して性能を向上する。
性能改善は敵の条件下で継続する。
逆に、ベクターを減算すると、GSM8Kの−11.8%の性能が著しく低下し、ベクターの推論能力への強い貢献が示された。
この研究は、一般的に高価なトレーニングによって開発された推論能力を、既存のオープンソースモデルから抽出し、単純なテンソル算術を通して再利用する方法を示し、計算投資前のモデルのリサイクルによってモデルを強化する実践的な方法を提供する。
関連論文リスト
- Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - CoRT: Code-integrated Reasoning within Thinking [44.778344623138025]
o1やDeepSeek-R1のようなLarge Reasoning Models(LRM)は、長いチェーン・オブ・シント(CoT)による自然言語推論において顕著な進歩を示している。
Code Interpreter(CI)は、モデルの内部テキスト表現以外の外部知識を提供する。
本稿では,CIを効果的かつ効率的に活用するためのLRM教育のためのポストトレーニングフレームワークであるCoRTを紹介する。
論文 参考訳(メタデータ) (2025-06-11T14:59:02Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.190800043449336]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - ReFT: Reasoning with Reinforced Fine-Tuning [9.80361828538909]
本稿では,Reinforced Fine-Tuning (ReFT) というシンプルな手法を提案する。
ReFTはまずSFTを用いてモデルをウォームアップし,さらにオンライン強化学習,特に本論文のPPOアルゴリズムを用いる。
GSM8K、MathQA、SVAMPデータセットの実験では、ReFTがSFTを大幅に上回っている。
論文 参考訳(メタデータ) (2024-01-17T04:43:21Z) - Does entity abstraction help generative Transformers reason? [8.159805544989359]
本稿では,事前学習したトランスフォーマーにエンティティ型抽象化を組み込むことの有用性について検討する。
論理的推論の異なる4つのNLPタスクに対して,これらの手法を検証した。
論文 参考訳(メタデータ) (2022-01-05T19:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。