Fugu-MT 論文翻訳(概要): Towards Understanding Distilled Reasoning Models: A Representational Approach

論文の概要: Towards Understanding Distilled Reasoning Models: A Representational Approach

arxiv url: http://arxiv.org/abs/2503.03730v2
Date: Tue, 25 Mar 2025 00:07:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-26 19:42:58.032927
Title: Towards Understanding Distilled Reasoning Models: A Representational Approach
Title（参考訳）: 蒸留推論モデルの理解に向けて:表現論的アプローチ
Authors: David D. Baek, Max Tegmark,
Abstract要約: 我々は、Qwen系列モデルとその微調整された変種についてクロスコーダを訓練する。この結果から,クロスコーダは自己回帰や検証など,多種多様な推論に対応する特徴を学習できることが示唆された。
参考スコア（独自算出の注目度）: 6.563993791037387
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we investigate how model distillation impacts the development of reasoning features in large language models (LLMs). To explore this, we train a crosscoder on Qwen-series models and their fine-tuned variants. Our results suggest that the crosscoder learns features corresponding to various types of reasoning, including self-reflection and computation verification. Moreover, we observe that distilled models contain unique reasoning feature directions, which could be used to steer the model into over-thinking or incisive-thinking mode. In particular, we perform analysis on four specific reasoning categories: (a) self-reflection, (b) deductive reasoning, (c) alternative reasoning, and (d) contrastive reasoning. Finally, we examine the changes in feature geometry resulting from the distillation process and find indications that larger distilled models may develop more structured representations, which correlate with enhanced distillation performance. By providing insights into how distillation modifies the model, our study contributes to enhancing the transparency and reliability of AI systems.
Abstract（参考訳）: 本稿では,大規模言語モデル(LLM)におけるモデル蒸留が推論特性の発達にどのように影響するかを検討する。これを探るため、我々はQwenシリーズモデルとその微調整された変種についてクロスコーダを訓練する。この結果から,クロスコーダは自己回帰や計算の検証など,多種多様な推論に対応する特徴を学習できることが示唆された。さらに, 蒸留モデルには独自の推論特徴方向が含まれており, モデルが過度に考え抜かれたり, 切迫的に考えられたりすることができる。特に4つの特定の推論カテゴリについて分析を行う。 (a)自己回帰 (b)誘惑的推論, (c)代替推論、及び (d) 対照的な推論。最後に, 蒸留プロセスによる特徴幾何の変化について検討し, 大きな蒸留モデルでは, 蒸留性能の向上と相関して, より構造化された表現が発達する可能性が示唆された。蒸留のモデル変更に関する洞察を提供することで,AIシステムの透明性と信頼性の向上に寄与する。

関連論文リスト

Understanding Reasoning in Thinking Language Models via Steering Vectors [9.417134634193074]
我々はDeepSeek-R1-Distillモデルにおいて、特定の推論動作を分析し、操作する。これらの挙動はモデルの活性化空間における線形方向によって媒介され、ステアリングベクトルを用いて制御できることを実証する。提案手法は,思考モデルにおける推論過程を制御的かつ解釈可能な方法で操る実用的なツールを提供する。
論文参考訳（メタデータ） (2025-06-22T20:45:26Z)
Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文参考訳（メタデータ） (2025-05-17T00:31:39Z)
Style over Substance: Distilled Language Models Reason Via Stylistic Replication [4.313454680394974]
特殊推論言語モデル(RLM)は、詳細な推論トレースによるテスト時間計算のスケーリングが性能を大幅に向上させることを示した。本研究では, 蒸留モデルが推理中に複製された文体パターンを内部にどの程度内在させるかを検討する。合成トレーサを用いたモデルでは, 蒸留された推理能力は, 表面レベルのパターンに大きく依存していることが示唆された。
論文参考訳（メタデータ） (2025-04-02T13:50:20Z)
On the Reasoning Capacity of AI Models and How to Quantify It [0.0]
大規模言語モデル(LLM)は、その推論能力の基本的な性質に関する議論を激化させている。 GPQAやMMLUのようなベンチマークで高い性能を達成する一方で、これらのモデルはより複雑な推論タスクにおいて制限を示す。本稿では,モデル行動のメカニズムを解明するために,従来の精度指標を超える新しい現象論的手法を提案する。
論文参考訳（メタデータ） (2025-01-23T16:58:18Z)
The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文参考訳（メタデータ） (2024-05-24T07:41:26Z)
Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement [58.9768112704998]
遠方表現学習は、観測データ内の本質的要因を抽出する試みである。我々は新しい視点と枠組みを導入し、クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す。これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。
論文参考訳（メタデータ） (2024-02-15T05:07:54Z)
Revealing Multimodal Contrastive Representation Learning through Latent Partial Causal Models [85.67870425656368]
マルチモーダルデータに特化して設計された統一因果モデルを提案する。マルチモーダル・コントラスト表現学習は潜在結合変数の同定に優れていることを示す。実験では、仮定が破られたとしても、我々の発見の堅牢性を示す。
論文参考訳（メタデータ） (2024-02-09T07:18:06Z)
Leveraging Model-based Trees as Interpretable Surrogate Models for Model Distillation [3.5437916561263694]
代理モデルは、複雑で強力なブラックボックス機械学習モデルを振り返りに解釈する上で重要な役割を果たす。本稿では,決定規則により特徴空間を解釈可能な領域に分割する代理モデルとしてモデルベースツリーを用いることに焦点を当てる。 4つのモデルベースツリーアルゴリズム(SLIM, GUIDE, MOB, CTree)を比較した。
論文参考訳（メタデータ） (2023-10-04T19:06:52Z)
Knowledge Distillation Performs Partial Variance Reduction [93.6365393721122]
知識蒸留は'学生'モデルの性能を高めるための一般的な手法である。知識蒸留(KD)の背後にある力学は、まだ完全には理解されていない。我々は,KDを新しいタイプの分散還元機構として解釈できることを示す。
論文参考訳（メタデータ） (2023-05-27T21:25:55Z)
GAM(e) changer or not? An evaluation of interpretable machine learning models based on additive model constraints [5.783415024516947]
本稿では,一連の固有解釈可能な機械学習モデルについて検討する。 5つのGAMの予測特性を従来のMLモデルと比較した。
論文参考訳（メタデータ） (2022-04-19T20:37:31Z)
Beyond Explaining: Opportunities and Challenges of XAI-Based Model Improvement [75.00655434905417]
説明可能な人工知能(XAI)は、高度に複雑な機械学習(ML)モデルに透明性をもたらす新たな研究分野である。本稿では,機械学習モデルの諸特性を改善するために,XAIを実用的に応用する手法を概観する。実験では,モデル一般化能力や推論などの特性を改善する上で,説明がどのように役立つのかを,おもちゃと現実的な設定で実証的に示す。
論文参考訳（メタデータ） (2022-03-15T15:44:28Z)
Beyond Trivial Counterfactual Explanations with Diverse Valuable Explanations [64.85696493596821]
コンピュータビジョンの応用において、生成的対実法はモデルの入力を摂動させて予測を変更する方法を示す。本稿では,多様性強化損失を用いて制約される不連続潜在空間における摂動を学習する反事実法を提案する。このモデルは, 従来の最先端手法と比較して, 高品質な説明を生産する成功率を向上させる。
論文参考訳（メタデータ） (2021-03-18T12:57:34Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)
Learning Invariances for Interpretability using Supervised VAE [0.0]
我々はモデルを解釈する手段としてモデル不変性を学習する。可変オートエンコーダ(VAE)の教師型形式を提案する。我々は、我々のモデルと特徴属性の手法を組み合わせることで、モデルの意思決定プロセスについてよりきめ細やかな理解を得られることを示す。
論文参考訳（メタデータ） (2020-07-15T10:14:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。