論文の概要: All for One: LLMs Solve Mental Math at the Last Token With Information Transferred From Other Tokens
- arxiv url: http://arxiv.org/abs/2509.09650v1
- Date: Thu, 11 Sep 2025 17:41:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.496626
- Title: All for One: LLMs Solve Mental Math at the Last Token With Information Transferred From Other Tokens
- Title(参考訳): LLMがメンタルな数学を解き明かす「All For One」
- Authors: Siddarth Mamidanna, Daking Rai, Ziyu Yao, Yilun Zhou,
- Abstract要約: 理論的には、因果自己注意層と多層パーセプトロン層の組み合わせにより、全てのトークンが先行する全てのトークンに基づいて情報にアクセスし、計算することができる。
初期層における入力固有のトークン計算の抑制、次の数層におけるトークン位置間の情報伝達経路の制限、残りの層における最後のトークンにおける全ての計算を強制する3つのステップについて検討する。
- 参考スコア(独自算出の注目度): 14.890542559477906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demonstrate proficiency across numerous computational tasks, yet their inner workings remain unclear. In theory, the combination of causal self-attention and multilayer perceptron layers allows every token to access and compute information based on all preceding tokens. In practice, to what extent are such operations present? In this paper, on mental math tasks (i.e., direct math calculation via next-token prediction without explicit reasoning), we investigate this question in three steps: inhibiting input-specific token computations in the initial layers, restricting the routes of information transfer across token positions in the next few layers, and forcing all computation to happen at the last token in the remaining layers. With two proposed techniques, Context-Aware Mean Ablation (CAMA) and Attention-Based Peeking (ABP), we identify an All-for-One subgraph (AF1) with high accuracy on a wide variety of mental math tasks, where meaningful computation occurs very late (in terms of layer depth) and only at the last token, which receives information of other tokens in few specific middle layers. Experiments on a variety of models and arithmetic expressions show that this subgraph is sufficient and necessary for high model performance, transfers across different models, and works on a variety of input styles. Ablations on different CAMA and ABP alternatives reveal their unique advantages over other methods, which may be of independent interest.
- Abstract(参考訳): 大規模言語モデル (LLM) は、多くの計算タスクにまたがる習熟度を示すが、内部の動作は不明確である。
理論的には、因果自己注意層と多層パーセプトロン層の組み合わせにより、全てのトークンが先行する全てのトークンに基づいて情報にアクセスし、計算することができる。
実際には、そのような操作はどの程度存在するのか?
本稿では,初期層における入力固有のトークン計算の抑制,次の数層におけるトークン位置間の情報伝達の経路の制限,残りの層における最後のトークンにおける全ての計算の強制,という3つのステップで,メンタル数学のタスク(すなわち,次のトーケン予測による直接計算)について検討する。
2つの手法、CAMA (Context-Aware Mean Ablation) とABP (Attention-Based Peeking) を用いて、様々なメンタル数学のタスクにおいて、意味のある計算が非常に遅く(層深度の観点から)、最後のトークンでのみ発生し、いくつかの特定の中層における他のトークンの情報を受け取る、高精度なオール・フォー・ワン・サブグラフ(AF1)を同定する。
様々なモデルと算術式の実験により、この部分グラフは高いモデル性能、異なるモデル間での転送に十分で必要なものであり、様々な入力スタイルで動作することが示された。
異なるCAMAとAPPの代替品に対するアブレーションは、他の方法よりも独自の利点を示しており、これは独立した関心を持つ可能性がある。
関連論文リスト
- Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Scan and Snap: Understanding Training Dynamics and Token Composition in
1-layer Transformer [37.37547759817417]
トランスフォーマーアーキテクチャは、複数の研究領域で顕著な性能を示している。
我々は、次のトークン予測タスクのためのSGDトレーニングダイナミクスを解析する。
自己注意が自己識別型スキャンアルゴリズムとして機能することを証明する。
論文 参考訳(メタデータ) (2023-05-25T15:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。