論文の概要: Simulating Hard Attention Using Soft Attention
- arxiv url: http://arxiv.org/abs/2412.09925v2
- Date: Thu, 26 Jun 2025 13:41:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 15:38:00.101782
- Title: Simulating Hard Attention Using Soft Attention
- Title(参考訳): ソフトアテンションを用いたハードアテンションのシミュレーション
- Authors: Andy Yang, Lena Strobl, David Chiang, Dana Angluin,
- Abstract要約: 我々は、ソフトアテンションがハードアテンションをシミュレートできる条件、すなわち、全てのアテンションをポジションのサブセットに効果的にフォーカスする条件について研究する。
本研究では,ソフトアテンション変換器がハードアテンション変換器によって認識される言語の公式を計算する方法を示す。
- 参考スコア(独自算出の注目度): 7.266695186794583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study conditions under which transformers using soft attention can simulate hard attention, that is, effectively focus all attention on a subset of positions. First, we examine several subclasses of languages recognized by hard-attention transformers, which can be defined in variants of linear temporal logic. We demonstrate how soft-attention transformers can compute formulas of these logics using unbounded positional embeddings or temperature scaling. Second, we demonstrate how temperature scaling allows softmax transformers to simulate general hard-attention transformers, using a temperature that depends on the minimum gap between the maximum attention scores and other attention scores.
- Abstract(参考訳): 本研究では,ソフトアテンションを用いたトランスフォーマーが注意をシミュレートする条件について検討する。
まず,線形時間論理の変種で定義できるハードアテンション変換器によって認識される言語のいくつかのサブクラスについて検討する。
本研究では,非有界な位置埋め込みや温度スケーリングを用いて,ソフトアテンション変換器がこれらの論理式を計算できることを実証する。
第2に,最大注意点と他の注意点の最小間隔に依存する温度を用いて,ソフトマックス変圧器が一般的なハードアテンション変圧器をシミュレートする方法を示す。
関連論文リスト
- Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。
変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。
そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文 参考訳(メタデータ) (2024-06-26T16:13:35Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。
本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - Transformers, parallel computation, and logarithmic depth [33.659870765923884]
我々は,一定数の自己注意層が,大規模並列計算の通信ラウンドを効率よくシミュレートし,シミュレートできることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:54:55Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - Momentum Transformer: Closing the Performance Gap Between Self-attention
and Its Linearization [31.28396970291575]
効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。
まず、勾配降下ステップとして注目マップの計算における線形注意と残差接続を解釈する。
次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させるために運動量を利用するエンファンモーメント変換器を提案する。
論文 参考訳(メタデータ) (2022-08-01T02:37:49Z) - A Probabilistic Interpretation of Transformers [91.3755431537592]
本稿では,変圧器の指数点積注意の確率論的解釈と指数列に基づくコントラスト学習を提案する。
我々は、我々の理論とホップフィールド理論の理論的限界を述べ、分解の方向性を提案する。
論文 参考訳(メタデータ) (2022-04-28T23:05:02Z) - SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。
SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。
我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:48:43Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。