論文の概要: Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors
- arxiv url: http://arxiv.org/abs/2603.14087v1
- Date: Sat, 14 Mar 2026 19:20:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.591803
- Title: Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors
- Title(参考訳): 次世代予測における見知らぬ特徴の創発的理解
- Authors: Mark Rofin, Jalal Naghiyev, Michael Hahn,
- Abstract要約: 次点予測対象からの勾配信号のどの成分が、この現象を引き起こすかを同定する。
本稿では,これらの成分が特定の特徴の出現に与える影響を推定する手法を提案する。
- 参考スコア(独自算出の注目度): 4.104259923201677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trained Transformers have been shown to compute abstract features that appear redundant for predicting the immediate next token. We identify which components of the gradient signal from the next-token prediction objective give rise to this phenomenon, and we propose a method to estimate the influence of those components on the emergence of specific features. After validating our approach on toy tasks, we use it to interpret the origins of the world model in OthelloGPT and syntactic features in a small language model. Finally, we apply our framework to a pretrained LLM, showing that features with extremely high or low influence on future tokens tend to be related to formal reasoning domains such as code. Overall, our work takes a step toward understanding hidden features of Transformers through the lens of their development during training.
- Abstract(参考訳): トレーニングされたトランスフォーマーは、すぐに次のトークンを予測するために冗長に見える抽象的な機能を計算できることが示されている。
次点予測対象からの勾配信号のどの成分がこの現象を引き起こすかを同定し,それらの成分が特定の特徴の出現に与える影響を推定する手法を提案する。
我々は,オセロGPTにおける世界モデルの起源と,小さな言語モデルにおける構文的特徴を解釈するために,おもちゃのタスクに対するアプローチを検証する。
最後に、我々のフレームワークを事前訓練されたLLMに適用し、将来のトークンに非常に高いあるいは低い影響を持つ特徴が、コードのような形式的推論ドメインと関連していることを示した。
全体として、我々の研究は、トレーニング中の発達のレンズを通してトランスフォーマーの隠れた特徴を理解するための一歩を踏み出した。
関連論文リスト
- Attention Illuminates LLM Reasoning: The Preplan-and-Anchor Rhythm Enables Fine-Grained Policy Optimization [56.083511902353365]
強化学習(Reinforcement Learning, RL)は、一般的に、大規模言語モデルの全世代にわたって一様クレジットを適用する。
この研究は、LSMの内部論理を推論自体の機械的青写真として描画する特権基板として注意を向けている。
クリティカルノードに対するターゲットクレジット割り当てを動的に行う3つの新しいRL戦略を導入する。
論文 参考訳(メタデータ) (2025-10-15T13:49:51Z) - I Predict Therefore I Am: Is Next Token Prediction Enough to Learn Human-Interpretable Concepts from Data? [76.15163242945813]
大規模言語モデル (LLM) は、多くの人が知能の形式を示すと結論づけている。
本稿では,潜在離散変数として表現される人間解釈可能な概念に基づいてトークンを生成する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2025-03-12T01:21:17Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - Analyze Feature Flow to Enhance Interpretation and Steering in Language Models [3.8498574327875947]
本研究では,スパースオートエンコーダによって発見される特徴を,大規模言語モデルの連続的な層にわたって体系的にマッピングする手法を提案する。
データフリーなコサイン類似性技術を使用することで、各ステージで特定の機能が持続、変換、あるいは最初に現れるかを追跡できる。
論文 参考訳(メタデータ) (2025-02-05T09:39:34Z) - VISIT: Visualizing and Interpreting the Semantic Information Flow of
Transformers [45.42482446288144]
近年の解釈可能性の進歩は、トランスフォーマーベース言語モデルの重みと隠れ状態を語彙に投影できることを示唆している。
LMアテンションヘッドとメモリ値、モデルが与えられた入力を処理しながら動的に生成し、リコールするベクトルについて検討する。
対話型フローグラフとして生成事前学習変換器(GPT)の前方通過を可視化するツールを作成する。
論文 参考訳(メタデータ) (2023-05-22T19:04:56Z) - MARS: Meta-Learning as Score Matching in the Function Space [79.73213540203389]
本稿では,一連の関連するデータセットから帰納バイアスを抽出する手法を提案する。
機能的ベイズニューラルネットワーク推論を用いて、前者をプロセスとみなし、関数空間で推論を行う。
本手法は,データ生成プロセスのスコア関数をメタラーニングすることにより,複雑な事前知識をシームレスに獲得し,表現することができる。
論文 参考訳(メタデータ) (2022-10-24T15:14:26Z) - Function Contrastive Learning of Transferable Meta-Representations [38.31692245188669]
共同訓練がメタ表現の伝達性に及ぼす影響について検討した。
教師付きメタ学習のためのデカップリングエンコーダデコーダアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-14T13:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。