Fugu-MT 論文翻訳(概要): Simulating Hard Attention Using Soft Attention

論文の概要: Simulating Hard Attention Using Soft Attention

arxiv url: http://arxiv.org/abs/2412.09925v1
Date: Fri, 13 Dec 2024 07:27:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.880196
Title: Simulating Hard Attention Using Soft Attention
Title（参考訳）: ソフトアテンションを用いたハードアテンションのシミュレーション
Authors: Andy Yang, Lena Strobl, David Chiang, Dana Angluin,
Abstract要約: ソフトアテンショントランスフォーマーは、全ての注意を位置のサブセットに効果的に集中させることができることを示す。また, 温度スケーリングにより, ソフトマックス変圧器は, 平均重み付きアテンション変圧器の大規模サブクラスをシミュレートできることを示す。
参考スコア（独自算出の注目度）: 7.266695186794583
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study conditions under which transformers using soft attention can simulate hard attention, that is, effectively focus all attention on a subset of positions. First, we examine several variants of linear temporal logic, whose formulas have been previously been shown to be computable using hard attention transformers. We demonstrate how soft attention transformers can compute formulas of these logics using unbounded positional embeddings or temperature scaling. Second, we demonstrate how temperature scaling allows softmax transformers to simulate a large subclass of average-hard attention transformers, those that have what we call the uniform-tieless property.
Abstract（参考訳）: 本研究では,ソフトアテンションを用いたトランスフォーマーが注意をシミュレートする条件について検討する。まず、線形時間論理のいくつかの変種について検討し、その公式は、これまでハードアテンション変換器を用いて計算可能であることが示されてきた。ソフトアテンション変換器は,非有界な位置埋め込みや温度スケーリングを用いて,これらの論理式を計算できることを示す。第2に、温度のスケーリングにより、平均的注意度変換器の大規模なサブクラスをシミュレートできることを示す。

関連論文リスト

Fast attention mechanisms: a tale of parallelism [52.7657529272906]
準四分法的時間複雑性を有する近似近傍注意(ANNA)という,効率的な注意機構を導入する。我々は,ANNA変換器が従来確立されていた表現力を維持し,MPCアルゴリズムの能力に適合することを示す。
論文参考訳（メタデータ） (2025-09-10T20:59:44Z)
Is Random Attention Sufficient for Sequence Modeling? Disentangling Trainable Components in the Transformer [15.196937229815445]
フリーズキーとクエリの重み付けによる注意は、言語モデリングにおいて競合的に機能することを示す。また、完全にランダムなアテンションスコアを持つアーキテクチャであるMixiTを設計し、確実に安定した信号伝搬を実現した。以上の結果から,トランスアーキテクチャは特殊回路形成に対する帰納バイアスが組み込まれていることが示唆された。
論文参考訳（メタデータ） (2025-06-01T18:42:39Z)
Unique Hard Attention: A Tale of Two Sides [46.76255401198588]
左端と右端に注意を向けた有限精度変換器は線形時間論理(LTL)と同値であることが示されている左端に注意を払っているモデルは、Emphsoftの注意と等価であることを示し、実世界のトランスフォーマーを右アテンションモデルより近似した方がよいことを示唆している。
論文参考訳（メタデータ） (2025-03-18T18:12:09Z)
Differential Transformer [99.5117269150629]
トランスフォーマーは、無関係な文脈に注意を向ける傾向がある。 Diff Transformerを導入し、ノイズをキャンセルしながら関連するコンテキストに注意を向ける。ロングコンテキストモデリング、キー情報検索、幻覚緩和、インコンテキスト学習、アクティベーションアウトリーの削減など、実用的な応用において顕著な利点がある。
論文参考訳（メタデータ） (2024-10-07T17:57:38Z)
Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文参考訳（メタデータ） (2024-06-26T16:13:35Z)
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerのサイズが大きくなると、パフォーマンスが向上するとは限らない。本稿では,変圧器を用いた言語モデルの事前学習において,記憶に光を当てる理論的枠組みを提案する。
論文参考訳（メタデータ） (2024-05-14T15:48:36Z)
Transformers, parallel computation, and logarithmic depth [33.659870765923884]
我々は,一定数の自己注意層が,大規模並列計算の通信ラウンドを効率よくシミュレートし,シミュレートできることを示す。
論文参考訳（メタデータ） (2024-02-14T15:54:55Z)
On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文参考訳（メタデータ） (2023-11-02T20:03:05Z)
Masked Hard-Attention Transformers Recognize Exactly the Star-Free Languages [7.938342455750221]
本研究では,注目度の高い変圧器の正確なキャラクタリゼーションについて検討した。厳密なマスキング(各位置は自身には参加できない)と位置埋め込みがなければ、これらの変換器は線形時間論理と表現的に等価である。
論文参考訳（メタデータ） (2023-10-21T03:26:39Z)
A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。注目度を最大化するために,相対的な位置埋め込みを導入する。言語モデルを用いてトランスフォーマーの変種を評価する。
論文参考訳（メタデータ） (2022-12-20T18:56:20Z)
The Devil in Linear Transformer [42.232886799710215]
線形変圧器は、バニラ変圧器の二次的時空複雑性を低減することを目的としている。通常、様々なタスクやコーパスの劣化したパフォーマンスに悩まされる。本稿では,このような性能のギャップを生じさせる2つの重要な問題を特定する。
論文参考訳（メタデータ） (2022-10-19T07:15:35Z)
Momentum Transformer: Closing the Performance Gap Between Self-attention and Its Linearization [31.28396970291575]
効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。まず、勾配降下ステップとして注目マップの計算における線形注意と残差接続を解釈する。次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させるために運動量を利用するエンファンモーメント変換器を提案する。
論文参考訳（メタデータ） (2022-08-01T02:37:49Z)
A Probabilistic Interpretation of Transformers [91.3755431537592]
本稿では,変圧器の指数点積注意の確率論的解釈と指数列に基づくコントラスト学習を提案する。我々は、我々の理論とホップフィールド理論の理論的限界を述べ、分解の方向性を提案する。
論文参考訳（メタデータ） (2022-04-28T23:05:02Z)
SepTr: Separable Transformer for Audio Spectrogram Processing [74.41172054754928]
分離可能トランス (Separable Transformer, SepTr) と呼ばれる新しい視覚変換器アーキテクチャを提案する。 SepTrは2つのトランスフォーマーブロックを逐次的に使用し、1つは同じ周波数ビン内のトークンに、もう1つは同じ時間間隔でトークンに出席する。我々は3つのベンチマークデータセットで実験を行い、我々のアーキテクチャが従来のビジョントランスフォーマーや他の最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-03-17T19:48:43Z)
On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文参考訳（メタデータ） (2021-06-30T17:09:47Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。