論文の概要: Equivalence of Context and Parameter Updates in Modern Transformer Blocks
- arxiv url: http://arxiv.org/abs/2511.17864v1
- Date: Sat, 22 Nov 2025 01:17:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.483196
- Title: Equivalence of Context and Parameter Updates in Modern Transformer Blocks
- Title(参考訳): 現代変圧器ブロックにおけるコンテキストとパラメータ更新の等価性
- Authors: Adrian Goldwaser, Michael Munn, Javier Gonzalvo, Benoit Dherin,
- Abstract要約: 近年の研究では、バニラ変圧器における文脈の影響は、トークン依存のランク1パッチを重みに形成することで暗黙的に表現できることが判明している。
まず、Gemmaスタイルのトランスフォーマーブロックの正確な解析解を示し、コンテキストの効果をランク1パッチに完全にマッピングできることを証明した。
次に、この結果を一般化し、多層モデルに対する構築的証明とアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 8.364690240329411
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent research has established that the impact of context in a vanilla transformer can be represented implicitly by forming a token-dependent, rank-1 patch to its MLP weights. This work extends that foundational theory to the diverse architectures of modern Large Language Models. We first demonstrate a precise, analytical solution for a Gemma-style transformer block, proving that the entire effect of a context can be perfectly mapped to rank-1 patches on its MLP weight matrices and a patch to the RMSNorm scale. We then generalize this result, providing a constructive proof and algorithm for multi-layer models. To unify these findings, we introduce a general framework centered on two core properties: input controllability and output controllability. We prove that a perfect implicit weight patch is possible for any MLP block where the inner function is input-controllable and the outer function is output-controllable. This provides a simpler and more powerful lens for understanding how transformer models transmute prompts into effective weights. This setup generalizes to a wide range of modern LLM architectures including gating, pre-/post-norm, mixture of experts and sequential/parallel transformer blocks.
- Abstract(参考訳): 近年の研究では、バニラ変圧器における文脈の影響は、トークン依存のランク1パッチをMDP重みに形成することで暗黙的に表現できることが判明している。
この研究は、その基礎理論を現代の大規模言語モデルの多様なアーキテクチャにまで拡張した。
まず, Gemma型変圧器ブロックの正確な解析解を示し, 文脈の全体効果を, MLP の重み行列上のランク-1 パッチと RMSNorm スケールのパッチに完全にマッピングできることを証明した。
次に、この結果を一般化し、多層モデルに対する構築的証明とアルゴリズムを提供する。
これらの知見を統一するために、入力制御性と出力制御性という2つのコア特性を中心とした一般的なフレームワークを導入する。
内部関数が入力制御可能で外部関数が出力制御可能な任意のMPPブロックに対して、完全な暗黙重みパッチが可能であることを証明した。
これにより、トランスフォーマーモデルがいかに効果的に重量に変化するかを理解するための、よりシンプルで強力なレンズが提供される。
この設定は、ゲーティング、プレ/ポストノーム、エキスパートとシーケンシャル/並列トランスフォーマーブロックの混合を含む、幅広い近代LLMアーキテクチャに一般化する。
関連論文リスト
- FuseGPT: Learnable Layers Fusion of Generative Pre-trained Transformers [30.88764351013966]
GPT(Generative Pre-trained Transformer)は、様々な領域で顕著な性能を示す。
近年の研究では、トランスブロック内の冗長性を観察し、重要でないブロックの構造化プルーニングによる圧縮法を開発した。
FuseGPTは,プルーンドトランスフォーマーブロックをリサイクルし,モデルの性能を回復する新しい手法である。
論文 参考訳(メタデータ) (2024-11-21T09:49:28Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - PIDformer: Transformer Meets Control Theory [28.10913642120948]
我々は、そのソリューションのスムーズさを本質的に促進する自律的状態空間モデルとして自己意識を公表する。
モデルに参照点を持つPID(Proportional-Integral-Derivative)クローズドループフィードバック制御システムを導入し,ロバスト性や表現能力の向上を図る。
この制御フレームワークにより、新しい変換器のクラス、PID制御変換器(PIDformer)を導出する。
論文 参考訳(メタデータ) (2024-02-25T05:04:51Z) - SCHEME: Scalable Channel Mixer for Vision Transformers [52.605868919281086]
ビジョントランスフォーマーは多くの計算タスクで素晴らしいパフォーマンスを達成した。
密度の高い接続は、より大きな膨張比をサポートするスパースブロック対角構造に置き換えることができることを示す。
また、トレーニング中に並列分岐として、軽量でパラメータフリーなチャネル共分散アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-12-01T08:22:34Z) - A Closer Look at In-Context Learning under Distribution Shifts [24.59271215602147]
線形回帰の単純かつ基本的なタスクのレンズから、文脈内学習の一般性と限界をよりよく理解することを目的としている。
変圧器とセットベース分布の両方が, 正規最小二乗(OLS)の性能をより密にエミュレートし, 文脈内学習による分布評価を行うことがわかった。
トランスフォーマーはまた、セットベースの分散がフェーターとなる、軽微な分散シフトに対するレジリエンスも向上している。
論文 参考訳(メタデータ) (2023-05-26T07:47:21Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。