論文の概要: Unique Hard Attention: A Tale of Two Sides
- arxiv url: http://arxiv.org/abs/2503.14615v1
- Date: Tue, 18 Mar 2025 18:12:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:24:36.694878
- Title: Unique Hard Attention: A Tale of Two Sides
- Title(参考訳): ユニークなハード・アテンション:二面の物語
- Authors: Selim Jerad, Anej Svete, Jiaoda Li, Ryan Cotterell,
- Abstract要約: 左端と右端に注意を向けた有限精度変換器は線形時間論理(LTL)と同値であることが示されている
左端に注意を払っているモデルは、Emphsoftの注意と等価であることを示し、実世界のトランスフォーマーを右アテンションモデルより近似した方がよいことを示唆している。
- 参考スコア(独自算出の注目度): 46.76255401198588
- License:
- Abstract: Understanding the expressive power of transformers has recently attracted attention, as it offers insights into their abilities and limitations. Many studies analyze unique hard attention transformers, where attention selects a single position that maximizes the attention scores. When multiple positions achieve the maximum score, either the rightmost or the leftmost of those is chosen. In this paper, we highlight the importance of this seeming triviality. Recently, finite-precision transformers with both leftmost- and rightmost-hard attention were shown to be equivalent to Linear Temporal Logic (LTL). We show that this no longer holds with only leftmost-hard attention -- in that case, they correspond to a \emph{strictly weaker} fragment of LTL. Furthermore, we show that models with leftmost-hard attention are equivalent to \emph{soft} attention, suggesting they may better approximate real-world transformers than right-attention models. These findings refine the landscape of transformer expressivity and underscore the role of attention directionality.
- Abstract(参考訳): トランスフォーマーの表現力を理解することは、その能力と限界に関する洞察を提供するため、近年注目を集めている。
多くの研究がユニークなハードアテンション変換器を解析し、アテンションはアテンションスコアを最大化する単一の位置を選択する。
複数のポジションが最大スコアを達成すると、最も右か左のどちらかが選択される。
本稿では,このような自明さの重要性を強調した。
近年,左端と右端に注意を向けた有限精度変圧器が線形時間論理(LTL)と等価であることが示されている。
その場合、LTLの \emph{strictly weak} フラグメントに対応する。
さらに, 左端に注意を払っているモデルは, 「emph{soft} attention」と等価であることを示し, 右端に注意を向けたモデルよりも実世界の変圧器を近似した方がよいことを示唆した。
これらの知見はトランスフォーマーの表現力の景観を洗練させ、注意方向の役割を浮き彫りにした。
関連論文リスト
- Simulating Hard Attention Using Soft Attention [7.266695186794583]
ソフトアテンショントランスフォーマーは、全ての注意を位置のサブセットに効果的に集中させることができることを示す。
また, 温度スケーリングにより, ソフトマックス変圧器は, 平均重み付きアテンション変圧器の大規模サブクラスをシミュレートできることを示す。
論文 参考訳(メタデータ) (2024-12-13T07:27:42Z) - Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - On the Benefits of Rank in Attention Layers [38.651863218241154]
注意機構のランクと頭数との間には、劇的なトレードオフがあることが示される。
本研究は,本研究の成果を検証した既成のトランスフォーマーを用いた実験である。
論文 参考訳(メタデータ) (2024-07-23T03:40:24Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Are More Layers Beneficial to Graph Transformers? [97.05661983225603]
現在のグラフ変換器は、深さの増大によるパフォーマンス向上のボトルネックに悩まされている。
ディープグラフ変換器は、グローバルな注目の消滅能力によって制限されている。
本稿では,符号化表現に部分構造トークンを明示的に用いたDeepGraphという新しいグラフトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-03-01T15:22:40Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。
通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。
本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文 参考訳(メタデータ) (2022-10-19T07:15:35Z) - Unraveling Attention via Convex Duality: Analysis and Interpretations of
Vision Transformers [52.468311268601056]
本稿では凸双対性のレンズを通して注意を解析する。
我々は、大域的最適性に対して解釈可能で解ける等価な有限次元凸問題を導出する。
自己認識ネットワークがトークンを暗黙的にクラスタリングする方法を示す。
論文 参考訳(メタデータ) (2022-05-17T04:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。