論文の概要: Characterizing the Expressivity of Local Attention in Transformers
- arxiv url: http://arxiv.org/abs/2605.00768v1
- Date: Fri, 01 May 2026 16:30:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:29.013604
- Title: Characterizing the Expressivity of Local Attention in Transformers
- Title(参考訳): 変圧器における局所的注意の表現性の特徴
- Authors: Jiaoda Li, Ryan Cotterell,
- Abstract要約: トランスフォーマーは、言語モデリングの最も人気のあるニューラルアーキテクチャである。
本研究では,大域的注意を持つ固定精度変換器が,単一過去の演算子を含む線形時間論理の断片に対応することを示す。
さらに、局所的な注意を加えることで、第二の時間演算子を導入し、認識可能な正規言語のクラスを厳密に拡大することを示す。
- 参考スコア(独自算出の注目度): 54.7971926111047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer is the most popular neural architecture for language modeling. The cornerstone of the transformer is its global attention mechanism, which lets the model aggregate information from all preceding tokens before generating the next token. One common variant of attention is called local attention, which restricts each token to aggregating information from a bounded window of predecessors, reducing the quadratic cost of global attention to linear. Although this restriction is usually motivated by efficiency, it has also been found to improve model quality, a phenomenon that has so far lacked a satisfactory explanation. We provide a formal account of this phenomenon in terms of recognizer expressivity. It has been shown that fixed-precision transformers with global attention correspond to a fragment of linear temporal logic containing a single past operator. We additionally prove that adding local attention introduces a second temporal operator, strictly enlarging the class of recognizable regular languages. Moreover, global and local attention are expressively complementary: neither subsumes the other, and combining them yields the richest fragment. Experiments on formal language recognition and natural language modeling corroborate the theory, showing that hybrid global--local transformers outperform their global-only counterparts.
- Abstract(参考訳): トランスフォーマーは、言語モデリングの最も人気のあるニューラルアーキテクチャである。
トランスの基盤となるのは,次のトークンを生成する前に,すべての先行トークンからモデルを集約する,グローバルアテンション機構である。
これは各トークンが前者の有界ウィンドウから情報を集約することを制限し、世界的注目の2次コストを線形に削減するものである。
この制限は通常、効率性によって動機づけられるが、モデル品質を改善することも見出されている。
認識者表現性の観点から,この現象を公式に説明する。
グローバルな注意を持つ固定精度変換器は、単一の過去の演算子を含む線形時間論理の断片に対応することが示されている。
さらに、局所的な注意を加えることで、第二の時間演算子を導入し、認識可能な正規言語のクラスを厳密に拡大することを示す。
さらに、グローバルとローカルの注意は表象的に相補的であり、どちらも他方を仮定せず、それらを組み合わせることで最もリッチな断片が得られる。
形式的言語認識と自然言語モデリングの実験は、この理論を裏付け、ハイブリッドなグローバルローカルトランスフォーマーが、グローバルのみのトランスフォーマーよりも優れていることを示す。
関連論文リスト
- Efficiency Follows Global-Local Decoupling [62.05489838893081]
ConvNeurは、軽量なニューラルメモリブランチがトークンの集合にグローバルなコンテキストを集約する2分岐アーキテクチャである。
学習ゲートは、グローバルなキューが目的を絞ることなく、局所的な特徴を調整できる。
標準的な分類、検出、セグメンテーションのベンチマークでは、ConvNeurは同等または低い計算で同等の選択肢にマッチするか、超えている。
論文 参考訳(メタデータ) (2026-03-20T02:20:16Z) - Krause Synchronization Transformers [63.8469912831803]
トランスフォーマーにおける自己注意は、グローバルに正規化されたソフトマックスの重みに依存しており、すべてのトークンがすべての層で影響を競う。
クラーズ・アテンション(Krause Attention)は、有界信頼コンセンサス・ダイナミクスにインスパイアされた注意機構である。
論文 参考訳(メタデータ) (2026-02-12T03:47:53Z) - Inceptive Transformers: Enhancing Contextual Representations through Multi-Scale Feature Learning Across Domains and Languages [3.294155819837931]
Transformerモデルは、シーケンス内のすべてのトークンから1つの[/]トークンに情報を圧縮して、グローバルなコンテキストを表現する。
このアプローチは、きめ細かい機能や階層的な特徴を希薄化し、局所的なパターンが重要である下流のタスクで情報を失うリスクがある。
本稿では,トランス層上に位置するインセプションスタイルの1-D畳み込みモジュールを提案し,マルチスケールな局所的特徴を持つトークン表現を拡大する。
論文 参考訳(メタデータ) (2025-05-26T19:59:22Z) - Unified Local and Global Attention Interaction Modeling for Vision Transformers [1.9571946424055506]
本稿では,視覚変換器(ViT)の自己認識機構を拡張し,多様なデータセット間でより正確な物体検出を行う手法を提案する。
ViTは、オブジェクト検出、セグメンテーション、分類などの画像理解タスクに強力な能力を示す。
従来の自己意識フレームワークには,局所的特徴混合のための新たなアグレッシブ・コンボリューション・プール戦略と,新たな概念的アテンション・トランスフォーメーションという,2つの改良が加えられている。
論文 参考訳(メタデータ) (2024-12-25T04:53:19Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - Local-to-Global Self-Attention in Vision Transformers [130.0369761612812]
トランスフォーマーはコンピュータビジョンタスクに大きな可能性を示した。
最近のTransformerモデルは階層設計を採用しており、セルフアテンションはローカルウィンドウ内でのみ計算される。
この設計は効率を大幅に改善するが、早い段階ではグローバルな特徴推論が欠如している。
本研究では,トランスフォーマーのマルチパス構造を設計し,各ステージにおける複数の粒度での局所的・言語的推論を可能にする。
論文 参考訳(メタデータ) (2021-07-10T02:34:55Z) - Generic Attention-model Explainability for Interpreting Bi-Modal and
Encoder-Decoder Transformers [78.26411729589526]
トランスフォーマーアーキテクチャによる予測を説明する最初の方法を提案する。
本手法は,一様説明性に適応した既存手法よりも優れている。
論文 参考訳(メタデータ) (2021-03-29T15:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。