論文の概要: TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors
- arxiv url: http://arxiv.org/abs/2601.17958v1
- Date: Sun, 25 Jan 2026 19:21:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.560681
- Title: TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors
- Title(参考訳): テンソルレンズ:高次アテンションテンソルを用いたエンド・ツー・エンド変圧器解析
- Authors: Ido Andrew Atad, Itamar Zimerman, Shahar Katz, Lior Wolf,
- Abstract要約: 高次アテンション・インタラクション接続を通して表現された入力依存線形演算子として変換器全体をキャプチャする新しい定式化である attentionLens を導入する。
本実験は,注目テンソルが,解釈可能性とモデル理解を目的としたツール開発のための強力な基盤となることを実証した。
- 参考スコア(独自算出の注目度): 53.891337639229285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention matrices are fundamental to transformer research, supporting a broad range of applications including interpretability, visualization, manipulation, and distillation. Yet, most existing analyses focus on individual attention heads or layers, failing to account for the model's global behavior. While prior efforts have extended attention formulations across multiple heads via averaging and matrix multiplications or incorporated components such as normalization and FFNs, a unified and complete representation that encapsulates all transformer blocks is still lacking. We address this gap by introducing TensorLens, a novel formulation that captures the entire transformer as a single, input-dependent linear operator expressed through a high-order attention-interaction tensor. This tensor jointly encodes attention, FFNs, activations, normalizations, and residual connections, offering a theoretically coherent and expressive linear representation of the model's computation. TensorLens is theoretically grounded and our empirical validation shows that it yields richer representations than previous attention-aggregation methods. Our experiments demonstrate that the attention tensor can serve as a powerful foundation for developing tools aimed at interpretability and model understanding. Our code is attached as a supplementary.
- Abstract(参考訳): 注意行列はトランスフォーマー研究の基本であり、解釈可能性、可視化、操作、蒸留など幅広い応用をサポートする。
しかし、既存の分析のほとんどは、個々の注意ヘッドやレイヤーに焦点を当てており、モデルのグローバルな振る舞いを説明できない。
これまでの取り組みでは、平均化や行列乗算、正規化やFFNといった組み込まれたコンポーネントを通じて、複数のヘッドに注意を向ける定式化が進められてきたが、すべてのトランスフォーマーブロックをカプセル化する統一的で完全な表現はいまだに不足している。
本研究では,高次アテンション・インタラクション・テンソルで表現された1つの入力依存線形作用素として変換器全体をキャプチャする新しい定式化であるTensorLensを導入することにより,このギャップに対処する。
このテンソルは、アテンション、FFN、アクティベーション、正規化、残余接続を共同で符号化し、モデル計算の理論的に一貫性があり表現力のある線形表現を提供する。
テンソルレンスは理論的に根拠付けられており、我々の経験的検証により、従来の注目集約法よりも豊かな表現が得られることが示されている。
本実験は,注目テンソルが,解釈可能性とモデル理解を目的としたツール開発のための強力な基盤となることを実証した。
私たちのコードは補足品として添付されています。
関連論文リスト
- Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。
我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文 参考訳(メタデータ) (2025-05-30T12:39:26Z) - Bottlenecked Transformers: Periodic KV Cache Consolidation for Generalised Reasoning [16.35681450323654]
トランスフォーマーLSMは推論時間計算でスケールする強力な推論能力を示すことが示されている。
KVキャッシュの書き直しによるメモリ(re)統合が、推論の改善に有効である理由を理論的に正当化する。
我々のモデルでは、バニラトランスフォーマーと停止する拡張ベースラインに対して一貫したパフォーマンス向上が見られ、選択されたタスク/バックボーンに対して最大6.6ppのゲインが得られる。
論文 参考訳(メタデータ) (2025-05-22T17:33:49Z) - Can We Achieve Efficient Diffusion without Self-Attention? Distilling Self-Attention into Convolutions [94.21989689001848]
従来の自己アテンションモジュールをピラミッド畳み込みブロック((Delta)ConvBlocks)に置き換えるための(Delta)ConvFusionを提案する。
ローカライズされた畳み込み操作に注意パターンを蒸留し、他のコンポーネントを凍結させながら、(Delta)ConvFusionは、トランスフォーマーベースの処理に匹敵する性能を達成し、計算コストを6929$times$、LinFusionを5.42$times$の効率で上回る。
論文 参考訳(メタデータ) (2025-04-30T03:57:28Z) - A Unified Perspective on the Dynamics of Deep Transformers [24.094975798576783]
深部変圧器によるデータ異方性の進化について検討する。
我々は、非正規化離散ケースにおいて、以前の結果と平行なクラスタリング現象を強調した。
論文 参考訳(メタデータ) (2025-01-30T13:04:54Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - What Improves the Generalization of Graph Transformers? A Theoretical Dive into the Self-attention and Positional Encoding [67.59552859593985]
自己アテンションと位置エンコーディングを組み込んだグラフトランスフォーマーは、さまざまなグラフ学習タスクのための強力なアーキテクチャとして登場した。
本稿では,半教師付き分類のための浅いグラフ変換器の理論的検討について紹介する。
論文 参考訳(メタデータ) (2024-06-04T05:30:16Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。