論文の概要: A Free Probabilistic Framework for Analyzing the Transformer-based Language Models
- arxiv url: http://arxiv.org/abs/2506.16550v2
- Date: Sun, 27 Jul 2025 20:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.745152
- Title: A Free Probabilistic Framework for Analyzing the Transformer-based Language Models
- Title(参考訳): 変圧器に基づく言語モデル解析のための自由確率的フレームワーク
- Authors: Swagatam Das,
- Abstract要約: 本稿では,自由確率理論を用いたトランスフォーマーに基づく言語モデル解析のための形式的演算子理論フレームワークを提案する。
この研究は、理論上は大きな言語モデルにおける構造力学に関する原則的視点を提供する。
- 参考スコア(独自算出の注目度): 19.78896931593813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a formal operator-theoretic framework for analyzing Transformer-based language models using free probability theory. By modeling token embeddings and attention mechanisms as self-adjoint operators in a tracial \( W^* \)-probability space, we reinterpret attention as non-commutative convolution and describe representation propagation via free additive convolution. This leads to a spectral dynamic system interpretation of deep Transformers. We derive entropy-based generalization bounds under freeness assumptions and provide insight into positional encoding, spectral evolution, and representational complexity. This work offers a principled, though theoretical, perspective on structural dynamics in large language models.
- Abstract(参考訳): 本稿では,自由確率理論を用いたトランスフォーマーに基づく言語モデル解析のための形式的演算子理論フレームワークを提案する。
確率空間における自己随伴作用素としてのトークン埋め込みとアテンション機構をモデル化することにより、アテンションを非可換畳み込みとして解釈し、自由加法的畳み込みによる表現伝播を記述する。
これにより、ディープトランスフォーマーのスペクトル力学系が解釈される。
エントロピーに基づく一般化境界を自由性仮定の下で導出し、位置エンコーディング、スペクトル進化、表現複雑性に関する洞察を与える。
この研究は、理論上は大きな言語モデルにおける構造力学に関する原則的視点を提供する。
関連論文リスト
- Loss-Complexity Landscape and Model Structure Functions [56.01537787608726]
我々はコルモゴロフ構造関数 $h_x(alpha)$ を双対化するためのフレームワークを開発する。
情報理論構造と統計力学の数学的類似性を確立する。
構造関数と自由エネルギーの間のルジャンドル・フェンシェル双対性を明確に証明する。
論文 参考訳(メタデータ) (2025-07-17T21:31:45Z) - Characterizing the Expressivity of Transformer Language Models [56.598551673153366]
厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。
これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。
さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
論文 参考訳(メタデータ) (2025-05-29T16:30:30Z) - The Origins of Representation Manifolds in Large Language Models [52.68554895844062]
表現空間におけるコサイン類似性は、最短のオンマンフォールド経路を通して特徴の内在幾何学を符号化することができることを示す。
理論の臨界仮定と予測は、大きな言語モデルのテキスト埋め込みとトークンアクティベーションに基づいて検証される。
論文 参考訳(メタデータ) (2025-05-23T13:31:22Z) - Mathematical Foundation of Interpretable Equivariant Surrogate Models [4.433915375867081]
本稿では,ニューラルネットワークの説明可能性に関する厳密な数学的枠組みを紹介する。
中心的な概念は、特定の図形の非可換性を測定することによってGEO間の距離を定量化することである。
畳み込みニューラルネットワークを用いた画像分類のような、古典的な機械学習シナリオにどのように適用できるかを示す。
論文 参考訳(メタデータ) (2025-03-03T15:06:43Z) - Neural ODE Transformers: Analyzing Internal Dynamics and Adaptive Fine-tuning [30.781578037476347]
高度にフレキシブルな非自律型ニューラル常微分方程式(ODE)を用いたトランスフォーマーアーキテクチャのモデリング手法を提案する。
提案モデルでは,ニューラルネットワークによる注目度とフィードフォワードブロックの重みをパラメータ化し,これらの重みを連続層インデックスの関数として表現する。
我々のニューラルODE変換器は、さまざまな構成やデータセットにわたるバニラ変換器に匹敵するパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-03T09:12:14Z) - Entropy-Lens: The Information Signature of Transformer Computations [14.613982627206884]
本稿では,解凍型大規模変圧器のモデル非依存化フレームワークであるEntropy-Lensを紹介する。
この結果から, エントロピーに基づくメトリクスは, 現代のトランスフォーマーアーキテクチャの内部構造を明らかにするための基本的ツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2025-02-23T13:33:27Z) - Neural Interpretable Reasoning [12.106771300842945]
ディープラーニングにおける解釈可能性を実現するための新しいモデリングフレームワークを定式化する。
この複雑性はマルコフ的性質として解釈可能性を扱うことにより緩和できることを示す。
我々はニューラルジェネレーションと解釈可能な実行という新しいモデリングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-02-17T10:33:24Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Mechanistically Interpreting a Transformer-based 2-SAT Solver: An Axiomatic Approach [28.336108192282737]
機械的解釈可能性(Mechanistic Interpretability)は、内部コンポーネントの観点からニューラルネットワークが実行する計算をリバースエンジニアリングすることを目的としている。
解析対象のニューラルネットワークのセマンティクスを概ね捉えた記述として,機械的解釈を形式的に特徴づける公理の集合を与える。
解析モデルの機械論的解釈が、実際に記述された公理を満たすことを裏付ける証拠を提示する。
論文 参考訳(メタデータ) (2024-07-18T15:32:44Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - Quasi-symbolic Semantic Geometry over Transformer-based Variational AutoEncoder [10.880057430629126]
文意味論は,文意味論的な役割 - 単語内容の特徴 - の合成として構成され,形式的意味幾何学が提案される。
このような幾何学上の文ベクトルの移動を導くための新しい探索アルゴリズムを提案する。
実験結果から,形式的意味幾何学は文生成により良い制御と解釈をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2022-10-12T14:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。