論文の概要: Constructive Circuit Amplification: Improving Math Reasoning in LLMs via Targeted Sub-Network Updates
- arxiv url: http://arxiv.org/abs/2512.16914v1
- Date: Thu, 18 Dec 2025 18:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.25413
- Title: Constructive Circuit Amplification: Improving Math Reasoning in LLMs via Targeted Sub-Network Updates
- Title(参考訳): 構成回路増幅:ターゲットサブネットワーク更新によるLCMの数学的推論の改善
- Authors: Nikhil Prakash, Donghao Ren, Dominik Moritz, Yannick Assogba,
- Abstract要約: 構成回路増幅(Constructive Circuit Amplification)は、所望のタスクに責任を持つモデルコンポーネントと同様に、モデル推論トレースからトークンを識別する。
複数のモデルで最大+11.4%の精度向上を実現し、モデルコンポーネントの1.59%を変更できる。
- 参考スコア(独自算出の注目度): 17.40366590937297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior studies investigating the internal workings of LLMs have uncovered sparse subnetworks, often referred to as circuits, that are responsible for performing specific tasks. Additionally, it has been shown that model performance improvement through fine-tuning often results from the strengthening of existing circuits in the model. Taken together, these findings suggest the possibility of intervening directly on such circuits to make precise, task-targeted updates. Motivated by these findings, we propose a novel method called Constructive Circuit Amplification which identifies pivotal tokens from model reasoning traces as well as model components responsible for the desired task, and updates only those components. Applied to mathematical reasoning, it improves accuracy by up to +11.4% across multiple models while modifying as little as 1.59% of model components, with minimal impact on other abilities as measured by MMLU, TriviaQA, and TruthfulQA. These results demonstrate that targeted capabilities can be reliably enhanced by selectively updating a sparse set of model components.
- Abstract(参考訳): LLMの内部動作を調査する以前の研究では、特定のタスクを実行する責任を負うスパースサブネット(しばしばサーキットと呼ばれる)が発見されている。
さらに、微調整によるモデル性能改善は、しばしばモデル内の既存の回路の強化によって生じることが示されている。
これらの結果は、これらの回路に直接介入して、正確にタスクをターゲットとした更新を行う可能性を示唆している。
そこで本研究では,モデル推論トレースから重要なトークンを識別し,目的のタスクに責任を持つモデルコンポーネントを同定し,それらのコンポーネントのみを更新する,Constructive Circuit Amplificationという手法を提案する。
数学的推論に適用すると、MMLU、TriviaQA、TruthfulQAによって測定された他の能力に最小限の影響を与えながら、複数のモデルで最大で5.11.4%の精度向上を実現している。
これらの結果から,モデルコンポーネントのスパース集合を選択的に更新することで,ターゲット機能を確実に向上できることが示唆された。
関連論文リスト
- Did Models Sufficient Learn? Attribution-Guided Training via Subset-Selected Counterfactual Augmentation [61.248535801314375]
Subset-Selected Counterfactual Augmentation (SS-CA)
我々は,モデル予測を選択的に変更可能な最小空間領域集合を識別するために,対実的LIMAを開発した。
実験により,SS-CAは分布内テストデータ(ID)の一般化を改善し,分布外ベンチマーク(OOD)において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-11-15T08:39:22Z) - Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Attribution-guided Pruning for Compression, Circuit Discovery, and Targeted Correction in LLMs [15.23174472320989]
大規模言語モデル(LLM)は多くの現代のAIアプリケーションの中心である。
eXplainable AI(XAI)の最近の研究は、解釈可能性がモデル圧縮を可能にすることを示唆している。
論文 参考訳(メタデータ) (2025-06-16T17:38:36Z) - Towards Understanding Fine-Tuning Mechanisms of LLMs via Circuit Analysis [37.37040454356059]
本稿では,回路解析による微調整プロセスの深い解釈を実現することを目的とする。
我々は、細調整中の様々なチェックポイントの回路を同定し、回路解析、細調整方法、タスク複雑度の間の相互作用を調べる。
論文 参考訳(メタデータ) (2025-02-17T13:59:41Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - A Baseline Analysis of Reward Models' Ability To Accurately Analyze
Foundation Models Under Distribution Shift [2.2310395620011945]
我々は、分配シフトによる報酬モデルの性能への影響を評価する。
OODプロンプトと応答による新しい校正パターンと精度低下を示す。
我々は、分類によく用いられるOOD検出手法を報酬モデル設定に適用し、これらの分布シフトを検出する。
論文 参考訳(メタデータ) (2023-11-21T18:41:26Z) - DAIS: Automatic Channel Pruning via Differentiable Annealing Indicator
Search [55.164053971213576]
畳み込みニューラルネットワークは,計算オーバーヘッドが大きいにもかかわらず,コンピュータビジョンタスクの実行において大きな成功を収めている。
構造的(チャネル)プルーニングは、通常、ネットワーク構造を保ちながらモデルの冗長性を低減するために適用される。
既存の構造化プルーニング法では、手作りのルールが必要であり、これは大きなプルーニング空間に繋がる可能性がある。
論文 参考訳(メタデータ) (2020-11-04T07:43:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。