論文の概要: Tracking the Feature Dynamics in LLM Training: A Mechanistic Study
- arxiv url: http://arxiv.org/abs/2412.17626v3
- Date: Tue, 03 Jun 2025 08:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:08.970473
- Title: Tracking the Feature Dynamics in LLM Training: A Mechanistic Study
- Title(参考訳): LLMトレーニングにおける特徴ダイナミクスの追跡 : メカニカルスタディ
- Authors: Yang Xu, Yi Wang, Hengguan Huang, Hao Wang,
- Abstract要約: SAE-Trackは, 連続したSAEを効率よく取得するための新しい手法である。
本研究は,(2)特徴の意味的進化,(3)特徴形成の基盤過程,(4)特徴の方向性の漂流について論じる。
私たちの研究は、大規模言語モデル(LLM)の機能のダイナミクスに関する新たな洞察を提供し、トレーニングメカニズムと機能進化に対する理解を深めます。
- 参考スコア(独自算出の注目度): 11.64581123817424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding training dynamics and feature evolution is crucial for the mechanistic interpretability of large language models (LLMs). Although sparse autoencoders (SAEs) have been used to identify features within LLMs, a clear picture of how these features evolve during training remains elusive. In this study, we (1) introduce SAE-Track, a novel method for efficiently obtaining a continual series of SAEs, providing the foundation for a mechanistic study that covers (2) the semantic evolution of features, (3) the underlying processes of feature formation, and (4) the directional drift of feature vectors. Our work provides new insights into the dynamics of features in LLMs, enhancing our understanding of training mechanisms and feature evolution. For reproducibility, our code is available at https://github.com/Superposition09m/SAE-Track.
- Abstract(参考訳): 学習力学と機能進化を理解することは,大規模言語モデル(LLM)の機械的解釈可能性にとって重要である。
スパースオートエンコーダ (SAE) はLSM内の特徴を特定するのに使われてきたが、これらの特徴がトレーニング中にどのように進化するかを明確に示している。
本研究では,(1) 特徴のセマンティックな進化,(3) 特徴形成の基盤過程,(4) 特徴ベクトルの向きのドリフトを包含する機構研究の基礎となる,SAE-Trackを紹介した。
私たちの研究は、LLMの機能のダイナミクスに関する新たな洞察を提供し、トレーニングメカニズムと機能進化に対する理解を深めます。
再現性については、https://github.com/Superposition09m/SAE-Track.comで公開しています。
関連論文リスト
- LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Learning Beyond the Surface: How Far Can Continual Pre-Training with LoRA Enhance LLMs' Domain-Specific Insight Learning? [4.390998479503661]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
しかし、ドメイン固有のデータセットからより深い洞察を抽出し、内部化する能力は、まだ探索されていない。
本研究は, インサイトラーニングにおけるLCMの能力を高めるために, 連続的事前学習がいかに有効かを検討する。
論文 参考訳(メタデータ) (2025-01-29T18:40:32Z) - Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning [6.691759477350243]
Reinforcement Learning from Human Feedbackで訓練された大規模言語モデル(LLM)は、目覚ましい能力を示しているが、その基盤となる報酬関数や意思決定プロセスは不透明である。
本稿では, 逆強化学習(IRL)を用いて暗黙の報酬関数を復元することにより, LLMを解釈する新しい手法を提案する。
我々は,ヒトの嗜好を予測するために,最大85%の精度で報酬モデルを抽出し,様々な大きさの毒性に整合したLSMの実験を行った。
論文 参考訳(メタデータ) (2024-10-16T12:14:25Z) - Dynamics of Meta-learning Representation in the Teacher-student Scenario [8.099691748821114]
グラディエントベースのメタ学習アルゴリズムは、限られたデータを使って新しいタスクでモデルをトレーニングできることで人気を集めている。
本研究では,教師・学生シナリオにおけるストリーミングタスクを訓練した非線形2層ニューラルネットワークのメタラーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-22T16:59:32Z) - DSReLU: A Novel Dynamic Slope Function for Superior Model Training [2.2057562301812674]
このアプローチの理論的根拠は、ReLUのような従来のアクティベーション関数に関連する制限を克服することである。
提案手法は,Mini-ImageNet,CIFAR-100,MIT-BIHデータセットに基づいて,分類基準と一般化能力の改善を実証した。
論文 参考訳(メタデータ) (2024-08-17T10:01:30Z) - A Survey on Self-Evolution of Large Language Models [116.54238664264928]
大規模言語モデル(LLM)は、様々な分野やインテリジェントエージェントアプリケーションにおいて大きく進歩している。
この問題に対処するために、LLMが自律的に獲得し、洗練し、モデル自身によって生成された経験から学ぶことができる自己進化的アプローチが急速に成長している。
論文 参考訳(メタデータ) (2024-04-22T17:43:23Z) - Transformer-based Causal Language Models Perform Clustering [20.430255724239448]
簡単な指示追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。
本研究は,本モデルが隠れ空間内のデータをクラスタリングすることで,タスク固有の情報を学習し,学習中にこのクラスタリングプロセスが動的に進化することを示唆している。
論文 参考訳(メタデータ) (2024-02-19T14:02:31Z) - SELF: Self-Evolution with Language Feedback [68.6673019284853]
SELF(Self-Evolution with Language Feedback)は、大規模言語モデルを進化させる新しいアプローチである。
LLMは、人間の学習プロセスと同様、自己回帰を通じて自己改善を可能にする。
数学および一般タスクにおける実験により,SELFは人間の介入なしにLLMの能力を高めることができることが示された。
論文 参考訳(メタデータ) (2023-10-01T00:52:24Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。