論文の概要: Deriving Transformer Architectures as Implicit Multinomial Regression
- arxiv url: http://arxiv.org/abs/2509.04653v2
- Date: Mon, 27 Oct 2025 16:26:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.431235
- Title: Deriving Transformer Architectures as Implicit Multinomial Regression
- Title(参考訳): 暗黙の多項回帰としてのトランスフォーマーアーキテクチャの導出
- Authors: Jonas A. Actor, Anthony Gruber, Eric C. Cyr,
- Abstract要約: 固定された多重項回帰設定では、潜在特徴を最適化すると、注目ブロックによる特徴に誘導されるダイナミクスと整合する解が得られることを示す。
言い換えれば、変換器による表現の進化は、分類に最適な特徴を回復する軌跡として解釈できる。
- 参考スコア(独自算出の注目度): 3.2371089062298317
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While attention has been empirically shown to improve model performance, it lacks a rigorous mathematical justification. This short paper establishes a novel connection between attention mechanisms and multinomial regression. Specifically, we show that in a fixed multinomial regression setting, optimizing over latent features yields solutions that align with the dynamics induced on features by attention blocks. In other words, the evolution of representations through a transformer can be interpreted as a trajectory that recovers the optimal features for classification.
- Abstract(参考訳): モデル性能を改善するために実験的に注意が示されてきたが、厳密な数学的正当化は欠如している。
本稿では,注意機構と多項回帰の新たな関連性を確立する。
具体的には、固定された多重項回帰設定において、潜在特徴を最適化すると、注意ブロックによる特徴に誘導されるダイナミクスと整合する解が得られることを示す。
言い換えれば、変換器による表現の進化は、分類に最適な特徴を回復する軌跡として解釈できる。
関連論文リスト
- A Free Probabilistic Framework for Analyzing the Transformer-based Language Models [19.78896931593813]
本稿では,自由確率理論を用いたトランスフォーマーに基づく言語モデル解析のための形式的演算子理論フレームワークを提案する。
この研究は、理論上は大きな言語モデルにおける構造力学に関する原則的視点を提供する。
論文 参考訳(メタデータ) (2025-06-19T19:13:02Z) - Exact Learning Dynamics of In-Context Learning in Linear Transformers and Its Application to Non-Linear Transformers [1.7034813545878589]
トランスフォーマーモデルは、顕著なインコンテキスト学習(ICL)を示す
我々の研究は、ICLの正確な動的モデルを提供し、複雑なトランスフォーマートレーニングを解析するための理論的基盤ツールを提供する。
論文 参考訳(メタデータ) (2025-04-17T13:05:33Z) - Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning [30.781578037476347]
高度にフレキシブルな非自律型ニューラル常微分方程式(ODE)を用いたトランスフォーマーアーキテクチャのモデリング手法を提案する。
提案モデルでは,ニューラルネットワークによる注目度とフィードフォワードブロックの重みをパラメータ化し,これらの重みを連続層インデックスの関数として表現する。
我々のニューラルODE変換器は、さまざまな構成やデータセットにわたるバニラ変換器に匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-03T09:12:14Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Dynamical Mean-Field Theory of Self-Attention Neural Networks [0.0]
トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
論文 参考訳(メタデータ) (2024-06-11T13:29:34Z) - The Buffer Mechanism for Multi-Step Information Reasoning in Language Models [52.77133661679439]
大きな言語モデルの内部的推論メカニズムを調べることは、よりよいモデルアーキテクチャとトレーニング戦略を設計するのに役立ちます。
本研究では,トランスフォーマーモデルが垂直思考戦略を採用するメカニズムを解明するために,シンボリックデータセットを構築した。
我々は,GPT-2モデルに必要なトレーニング時間を75%削減し,モデルの推論能力を高めるために,ランダムな行列ベースアルゴリズムを提案した。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - Convexifying Transformers: Improving optimization and understanding of
transformer networks [56.69983975369641]
本研究では,注目/変圧器ネットワークのトレーニング問題について検討し,新しい凸解析手法を提案する。
まず,自己注意機構の代替として凸を導入し,変圧器ネットワークの正規化学習問題を再構成する。
凸解析の副産物として,トークン間の空間性を促進する暗黙の規則化機構を明らかにする。
論文 参考訳(メタデータ) (2022-11-20T18:17:47Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。