論文の概要: Generic Interpretation Approach for Transformer Models Incorporating Heterogenous Attention Structures
- arxiv url: http://arxiv.org/abs/2605.27458v2
- Date: Mon, 01 Jun 2026 01:38:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.543599
- Title: Generic Interpretation Approach for Transformer Models Incorporating Heterogenous Attention Structures
- Title(参考訳): 異種アテンション構造を組み込んだトランスフォーマーモデルのジェネリック解釈手法
- Authors: Yongjin Cui, Xiaohui Fan, Huajun Chen,
- Abstract要約: 本稿では,トランスフォーマーのアテンション構造を,同種・異種2種類のアテンション構造に基づく2つのタイプに分類する。
本稿では,異種注意構造を持つトランスフォーマーモデルの解釈手法を提案する。
実験の観点では、我々の実験分析パラダイムに基づいて、代表モデルの動作機構を解釈する。
- 参考スコア(独自算出の注目度): 47.816447130827555
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has significantly propelled the development of artificial intelligence, and certainly the development of agents as well. We categorize attention structures of Transformer into two types based on the source of the input information: homogenous and heterogenous attention structures. Heterogenous attention structures, with co-attention as a typical example, process information from different sources. Heterogenous attention structure is the foundation for Transformer models to achieve more complex functions and integrate more modal information. Whether for research purposes or policy requirements, the interpretation of Transformer models with heterogenous attention structures is an important task. The fusion of information from different sources brings new challenges. Our work mainly includes two parts: method and experimentation. In terms of method, we propose an interpretation method for Transformer models with heterogenous attention structures. In terms of experimentation, based on our experimental analysis paradigm, we interpret the operating mechanisms of representative models, conduct semantic interpretation and logical interpretation.
- Abstract(参考訳): トランスフォーマーは人工知能の開発を著しく推進し、エージェントの開発も確実に促進してきた。
本稿では,トランスフォーマーのアテンション構造を,同種・異種2種類のアテンション構造に基づく2つのタイプに分類する。
典型的な例としてコアテンションを持つ異種アテンション構造は、異なるソースからの情報を処理している。
異種アテンション構造はトランスフォーマーモデルの基礎であり、より複雑な機能を実現し、よりモーダルな情報を統合する。
研究目的や政策要件にかかわらず、異種注意構造を持つトランスフォーマーモデルの解釈は重要な課題である。
異なるソースからの情報の融合は、新しい課題をもたらします。
私たちの研究は主に方法論と実験の2つの部分を含む。
本稿では,異種注意構造を持つトランスフォーマーモデルの解釈手法を提案する。
実験の観点では、我々の実験分析パラダイムに基づいて、代表モデルの動作機構を解釈し、意味論的解釈と論理的解釈を行う。
関連論文リスト
- Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale [50.33952894976367]
我々は文脈自由文法を用いて、ウェブスケールテキストコーパスのための忠実で効率的なプロキシである合成コーパスを生成する。
設計したデータ生成プロセスにおいて,誘導ヘッド,関数ベクトル,ハイドラ効果という3つの力学現象の出現について検討する。
これらの現象の出現を説明する上で,データ生成プロセスの階層構造がX因子となることが示唆された。
論文 参考訳(メタデータ) (2026-02-04T14:49:13Z) - Differentiation and Specialization of Attention Heads via the Refined Local Learning Coefficient [0.49478969093606673]
特異学習理論に基づくモデル複雑性の尺度である局所学習係数 (LLC) の洗練された変種を導入する。
本研究では,トランスフォーマー言語モデルにおける内部構造の開発について検討する。
論文 参考訳(メタデータ) (2024-10-03T20:51:02Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Understanding the Expressive Power and Mechanisms of Transformer for Sequence Modeling [10.246977481606427]
ドット積自己注意などのトランスフォーマーの異なる成分が表現力に影響を及ぼすメカニズムについて検討する。
本研究では,トランスフォーマーにおける臨界パラメータの役割を明らかにする。
論文 参考訳(メタデータ) (2024-02-01T11:43:13Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。