論文の概要: A Free Probabilistic Framework for Analyzing the Transformer-based Language Models
- arxiv url: http://arxiv.org/abs/2506.16550v1
- Date: Thu, 19 Jun 2025 19:13:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.225103
- Title: A Free Probabilistic Framework for Analyzing the Transformer-based Language Models
- Title(参考訳): 変圧器に基づく言語モデル解析のための自由確率的フレームワーク
- Authors: Swagatam Das,
- Abstract要約: 本稿では,トランスフォーマーに基づく言語モデル解析のための演算子理論フレームワークについて概説する。
我々は、注意を非可換的畳み込みとして再解釈し、表現の階層的伝播を自由加法的畳み込みによって支配される進化とみなす。
- 参考スコア(独自算出の注目度): 19.78896931593813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We outline an operator-theoretic framework for analyzing transformer-based language models using the tools of free probability theory. By representing token embeddings and attention mechanisms as self-adjoint operators in a racial probability space, we reinterpret attention as a non-commutative convolution and view the layer-wise propagation of representations as an evolution governed by free additive convolution. This formalism reveals a spectral dynamical system underpinning deep transformer stacks and offers insight into their inductive biases, generalization behavior, and entropy dynamics. We derive a generalization bound based on free entropy and demonstrate that the spectral trace of transformer layers evolves predictably with depth. Our approach bridges neural architecture with non-commutative harmonic analysis, enabling principled analysis of information flow and structural complexity in large language models
- Abstract(参考訳): 自由確率理論のツールを用いてトランスフォーマーに基づく言語モデルの解析を行う演算子理論フレームワークの概要を述べる。
トークン埋め込みとアテンション機構を人種的確率空間における自己随伴作用素として表現することにより、アテンションを非可換畳み込みとして解釈し、表現の階層的伝播を自由加法的畳み込みによって支配される進化と見なす。
この形式主義は、ディープトランスフォーマースタックを支えるスペクトル力学系を明らかにし、誘導バイアス、一般化挙動、エントロピー力学に関する洞察を与える。
自由エントロピーに基づく一般化を導出し、変圧器層のスペクトルトレースが深さとともに予測可能であることを示す。
我々のアプローチはニューラルアーキテクチャを非可換調和解析で橋渡しし、大規模言語モデルにおける情報フローと構造的複雑さの原理解析を可能にする。
関連論文リスト
- Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning [30.781578037476347]
高度にフレキシブルな非自律型ニューラル常微分方程式(ODE)を用いたトランスフォーマーアーキテクチャのモデリング手法を提案する。
提案モデルでは,ニューラルネットワークによる注目度とフィードフォワードブロックの重みをパラメータ化し,これらの重みを連続層インデックスの関数として表現する。
我々のニューラルODE変換器は、さまざまな構成やデータセットにわたるバニラ変換器に匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-03T09:12:14Z) - Entropy-Lens: The Information Signature of Transformer Computations [14.613982627206884]
本稿では,解凍型大規模変圧器のモデル非依存化フレームワークであるEntropy-Lensを紹介する。
この結果から, エントロピーに基づくメトリクスは, 現代のトランスフォーマーアーキテクチャの内部構造を明らかにするための基本的ツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2025-02-23T13:33:27Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Mechanistically Interpreting a Transformer-based 2-SAT Solver: An Axiomatic Approach [28.336108192282737]
機械的解釈可能性(Mechanistic Interpretability)は、内部コンポーネントの観点からニューラルネットワークが実行する計算をリバースエンジニアリングすることを目的としている。
解析対象のニューラルネットワークのセマンティクスを概ね捉えた記述として,機械的解釈を形式的に特徴づける公理の集合を与える。
解析モデルの機械論的解釈が、実際に記述された公理を満たすことを裏付ける証拠を提示する。
論文 参考訳(メタデータ) (2024-07-18T15:32:44Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。