論文の概要: Transcoder Adapters for Reasoning-Model Diffing
- arxiv url: http://arxiv.org/abs/2602.20904v1
- Date: Tue, 24 Feb 2026 13:40:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.767961
- Title: Transcoder Adapters for Reasoning-Model Diffing
- Title(参考訳): 共振モデルディッフィング用トランスコーダアダプタ
- Authors: Nathan Hu, Jake Ward, Thomas Icard, Christopher Potts,
- Abstract要約: 解釈可能な近似を学習する手法であるトランスコーダ計算を導入する。
トランスコーダアダプタを用いてQwen2.5-Math-7Bとその変種であるDeepSeek-R1-Di-Qwen-7Bの違いを特徴付ける。
- 参考スコア(独自算出の注目度): 28.090312772463253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While reasoning models are increasingly ubiquitous, the effects of reasoning training on a model's internal mechanisms remain poorly understood. In this work, we introduce transcoder adapters, a technique for learning an interpretable approximation of the difference in MLP computation before and after fine-tuning. We apply transcoder adapters to characterize the differences between Qwen2.5-Math-7B and its reasoning-distilled variant, DeepSeek-R1-Distill-Qwen-7B. Learned adapters are faithful to the target model's internal computation and next-token predictions. When evaluated on reasoning benchmarks, adapters match the reasoning model's response lengths and typically recover 50-90% of the accuracy gains from reasoning fine-tuning. Adapter features are sparsely activating and interpretable. When examining adapter features, we find that only ~8% have activating examples directly related to reasoning behaviors. We deeply study one such behavior -- the production of hesitation tokens (e.g., "wait"). Using attribution graphs, we trace hesitation to only ~2.4% of adapter features (5.6k total) performing one of two functions. These features are necessary and sufficient for producing hesitation tokens; removing them reduces response length, often without affecting accuracy. Overall, our results provide insight into reasoning training and suggest transcoder adapters may be useful for studying fine-tuning more broadly.
- Abstract(参考訳): 推論モデルはますますユビキタス化されているが、モデルの内部メカニズムに対する推論トレーニングの影響はいまだに理解されていない。
本研究では,マイクロチューニング前後のMLP計算の差分を解釈可能な近似法であるトランスコーダアダプタを導入する。
トランスコーダアダプタを用いてQwen2.5-Math-7Bとその変種であるDeepSeek-R1-Distill-Qwen-7Bの違いを特徴付ける。
学習されたアダプタは、ターゲットモデルの内部計算と次点予測に忠実である。
推論ベンチマークで評価すると、アダプタは推論モデルの応答長と一致し、典型的には推論の微調整から精度の50-90%を回復する。
アダプタ機能はわずかにアクティベートされ、解釈可能である。
アダプタの特徴を調べると、推論行動に直接関連する例を活性化しているのはわずか8%であることがわかった。
我々はそのような行動の1つについて深く研究している。
帰属グラフを用いて、2つの関数のうちの1つを実行するアダプタ機能(合計5.6k)の約2.4%にヘセージをトレースする。
これらの特徴は湿潤トークンを生成するのに十分であり、しばしば正確性に影響を与えることなく、応答長を減少させる。
全体として,本研究の結果から推論学習の知見が得られ,トランスコーダアダプタがより広範に微調整を研究するのに有用である可能性が示唆された。
関連論文リスト
- Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs [1.028001761831691]
自己解釈法は言語モデルに自身の内部状態を記述するよう促す。
本報告では,LMを完全に凍結する一方で,軽量アダプタの操作性を向上させることで,信頼性の高い自己解釈が得られることを示す。
論文 参考訳(メタデータ) (2026-02-10T22:50:02Z) - Correct, Concise and Complete: Multi-stage Training For Adaptive Reasoning [11.179446105672461]
教師付き微調整と強化学習を組み合わせた多段階効率的な推論手法を提案する。
提案手法は,8Bモデルでは平均28%,32Bモデルでは40%の応答長を減少させる。
より複雑な最先端の効率的な推論手法に比べて、優れたトレードオフを実現する。
論文 参考訳(メタデータ) (2026-01-06T12:31:51Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。
我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文 参考訳(メタデータ) (2025-02-21T00:48:32Z) - Parameter-Efficient Sparse Retrievers and Rerankers using Adapters [4.9545244468634655]
本研究では,スパースレトリバーであるSPLADEのアダプタについて検討する。
また、クロスドメインBEIRデータセットとTripClickのアダプタにより、ニューラルネットワークのドメイン適応にも対処する。
論文 参考訳(メタデータ) (2023-03-23T12:34:30Z) - LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。
固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。
我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-28T09:53:05Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z) - Tailoring: encoding inductive biases by optimizing unsupervised
objectives at prediction time [34.03150701567508]
主目的関数に補助的損失を加えることは、ネットワークがより良い表現を学ぶのに役立つバイアスを符号化する一般的な方法である。
この研究では、テキスト変換学習からインスピレーションを得て、入力を受け取った後、教師なしの損失に対してネットワークを微調整することができることに注意する。
メタ学習に類似したネスト最適化であるメタ調整を定式化し、教師なしの損失を用いてタスク目標に順応した後、モデルに順応するように訓練する。
論文 参考訳(メタデータ) (2020-09-22T15:26:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。