論文の概要: TRA: Better Length Generalisation with Threshold Relative Attention
- arxiv url: http://arxiv.org/abs/2503.23174v1
- Date: Sat, 29 Mar 2025 18:06:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:38:45.651897
- Title: TRA: Better Length Generalisation with Threshold Relative Attention
- Title(参考訳): TRA:Threshold Relative Attentionによる長さの一般化
- Authors: Mattia Opper, Roland Fernandez, Paul Smolensky, Jianfeng Gao,
- Abstract要約: これらの制限が自己認識機構の2つの重要な障害によって説明できるかどうかを検証する。
ひとつは、無関係な情報を完全に取り除くことができないことです。
2つ目は、キーとクエリの間のドット積が非常に負であっても、位置と結びついている。
これらの2つの緩和による注意機構がデコーダのみの変換器の一般化能力を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 82.48803867492147
- License:
- Abstract: Transformers struggle with length generalisation, displaying poor performance even on basic tasks. We test whether these limitations can be explained through two key failures of the self-attention mechanism. The first is the inability to fully remove irrelevant information. The second is tied to position, even if the dot product between a key and query is highly negative (i.e. an irrelevant key) learned positional biases may unintentionally up-weight such information - dangerous when distances become out of distribution. Put together, these two failure cases lead to compounding generalisation difficulties. We test whether they can be mitigated through the combination of a) selective sparsity - completely removing irrelevant keys from the attention softmax and b) contextualised relative distance - distance is only considered as between the query and the keys that matter. We show how refactoring the attention mechanism with these two mitigations in place can substantially improve generalisation capabilities of decoder only transformers.
- Abstract(参考訳): トランスフォーマーは長さの一般化に苦慮し、基本的なタスクでも性能が劣っている。
これらの制限が自己認識機構の2つの重要な障害によって説明できるかどうかを検証する。
ひとつは、無関係な情報を完全に取り除くことができないことです。
2つ目は、キーとクエリの間のドット積が非常に負の(すなわち、無関係なキー)学習された位置バイアスが、そのような情報 - 分布から距離が外れると危険である場合 - の位置と結びついている。
まとめると、これらの2つの失敗事例は、一般化の難しさを複雑にする。
組み合わせによって緩和できるかどうかをテストする。
a)選択的な間隔 -注意力のソフトマックスから無関係な鍵を完全に取り除き、
b) 文脈化された相対距離 - 距離は、クエリと重要なキーの間にのみ考慮される。
この2つの軽減策によってアテンション機構のリファクタリングがデコーダのみの変換器の一般化能力を大幅に向上させることを示す。
関連論文リスト
- Exploring Unbiased Deepfake Detection via Token-Level Shuffling and Mixing [22.61113682126067]
我々は、検出器が過度に適合する傾向がある2つのバイアス、すなわち位置バイアスとコンテンツバイアスを識別する。
位置バイアスに対して、検出器は画像内の特定の位置によって遅延しがちである。
コンテンツバイアスに関しては、検知器は誤検出に偽造非関連情報を利用する可能性があると論じる。
論文 参考訳(メタデータ) (2025-01-08T09:30:45Z) - Hadamard Attention Recurrent Transformer: A Strong Baseline for Stereo Matching Transformer [54.97718043685824]
本稿では,HART(Hadamard Attention Recurrent Stereo Transformer)について述べる。
より高速な推論のために、線形計算複雑性を実現するための注意機構のためのアダマール積のパラダイムを提案する。
我々はDense Attention Kernel(DAK)を設計し、関連する機能応答と無関係な機能応答の違いを増幅した。
反映的な領域では、HARTは提出時のすべてのメソッドの中で、KITTI 2012ベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2025-01-02T02:51:16Z) - Bridging the Divide: Reconsidering Softmax and Linear Attention [116.34723260730405]
線形注意の限界を理解し緩和する2つの重要な視点を提示する。
線形注意は単射ではなく、異なるクエリベクトルに同一の注意重みを割り当てる傾向があることを証明した。
第2に,線形の注意が不足するソフトマックスの注意を成功させるためには,効果的な局所モデリングが不可欠であることを確認した。
論文 参考訳(メタデータ) (2024-12-09T15:44:22Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Are queries and keys always relevant? A case study on Transformer wave functions [0.0]
ドット製品アテンションメカニズム(ドット製品アテンションメカニズム)は、元々自然言語処理タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。
本稿では,変分波動関数のパラメトリゼーションの特定の領域において,トランスフォーマーの適応性について検討する。
論文 参考訳(メタデータ) (2024-05-29T08:32:37Z) - From Interpolation to Extrapolation: Complete Length Generalization for Arithmetic Transformers [7.011373967209572]
対象の注意バイアスの助けを借りて,変圧器モデルを長大化することができることを示す。
ABC を用いて,変圧器モデルにより,ある種の算術課題において,前例のないほぼ完全長の一般化を達成できることを実証する。
論文 参考訳(メタデータ) (2023-10-18T14:10:47Z) - Input-length-shortening and text generation via attention values [1.8222946691865871]
我々は,第1層の注意和が,与えられたシーケンス内のトークンをフィルタリングするのに有効であることを示す。
また、元のシーケンスの約6%を保持するだけで86.5%の精度が得られることを示す。
論文 参考訳(メタデータ) (2023-03-14T02:11:24Z) - Linear Video Transformer with Feature Fixation [34.324346469406926]
ビジョントランスフォーマーは、ソフトマックスのアテンション機構によって引き起こされる二次的な複雑さに悩まされながら、ビデオ分類において印象的なパフォーマンスを達成した。
本稿では、線形注意を計算する前に、クエリとキーの特徴的重要性を再重み付けする機能固定モジュールを提案する。
我々は,3つの人気ビデオ分類ベンチマークを用いて,線形ビデオ変換器の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-10-15T02:20:50Z) - Compositional Attention: Disentangling Search and Retrieval [66.7108739597771]
Multi-head, key-value attention は Transformer モデルとそのバリエーションのバックボーンである。
標準的なアテンションヘッドは、検索と検索の間の厳密なマッピングを学ぶ。
本稿では,標準ヘッド構造を置き換える新しいアテンション機構であるコンポジションアテンションアテンションを提案する。
論文 参考訳(メタデータ) (2021-10-18T15:47:38Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。