論文の概要: Don't Pay Attention
- arxiv url: http://arxiv.org/abs/2506.11305v1
- Date: Thu, 12 Jun 2025 21:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.585122
- Title: Don't Pay Attention
- Title(参考訳): 注意を払うな
- Authors: Mohammad Hammoud, Devang Acharya,
- Abstract要約: Aveyは新しい神経基盤アーキテクチャで、注意と再発の両方から切り離されている。
Aveyは、コンテキスト幅からシーケンスの長さを分離することで、任意に長いシーケンスの効率的な処理を可能にする。
その結果、Avey は様々な標準短距離 NLP ベンチマークで Transformer と比較した。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Transformer has become the de facto standard for large language models and a wide range of downstream tasks across various domains. Despite its numerous advantages like inherent training parallelism, the Transformer still faces key challenges due to its inability to effectively process sequences beyond a fixed context window and the quadratic complexity of its attention mechanism. These challenges have renewed interest in RNN-like architectures, which offer linear scaling with sequence length and improved handling of long-range dependencies, albeit with limited parallelism due to their inherently recurrent nature. In this paper, we propose Avey, a new neural foundational architecture that breaks away from both attention and recurrence. Avey comprises a ranker and an autoregressive neural processor, which collaboratively identify and contextualize only the most relevant tokens for any given token, regardless of their positions in the sequence. Specifically, Avey decouples sequence length from context width, thus enabling effective processing of arbitrarily long sequences. Experimental results show that Avey compares favorably to the Transformer across a variety of standard short-range NLP benchmarks, while notably excelling at capturing long-range dependencies.
- Abstract(参考訳): Transformerは、大規模言語モデルのデファクトスタンダードとなり、様々なドメインで幅広いダウンストリームタスクをこなしている。
固有のトレーニング並列性のような多くの利点にもかかわらず、Transformerは、固定されたコンテキストウィンドウを越えてシーケンスを効果的に処理できないことと、注意機構の二次的な複雑さのために、依然として重要な課題に直面している。
これらの課題は、配列長の線形スケーリングと長距離依存性の処理の改善を提供するRNNのようなアーキテクチャに再び関心を寄せている。
本稿では,注意と再発の両方から切り離された新しいニューラルネットワーク基盤アーキテクチャであるAveyを提案する。
Aveyは、ランク付け器と自己回帰型ニューラルプロセッサを備えており、シーケンス内の位置に関係なく、任意のトークンに対して最も関連性の高いトークンのみを協調的に識別し、文脈的に識別する。
具体的には、Aveyはコンテキスト幅からシーケンス長を分離し、任意の長いシーケンスの効率的な処理を可能にする。
実験結果から、Aveyは様々な標準の短距離NLPベンチマークに対してTransformerと好意的に比較し、特に長距離依存関係の取得に優れていた。
関連論文リスト
- Sequence Complementor: Complementing Transformers For Time Series Forecasting with Learnable Sequences [5.244482076690776]
シーケンス表現の表現能力は、時間予測においてTransformerのパフォーマンスに影響を与える重要な要因であることがわかった。
本稿では,シークエンス・コンプリメンタを用いた新しいアテンション機構を提案し,情報理論の観点から実現可能であることを示す。
論文 参考訳(メタデータ) (2025-01-06T03:08:39Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Rough Transformers: Lightweight and Continuous Time Series Modelling through Signature Patching [46.58170057001437]
本稿では,入力シーケンスの連続時間表現で動作するトランスフォーマーモデルのバリエーションであるRough Transformerを紹介する。
様々な時系列関連タスクにおいて、Rough Transformersはベニラアテンションよりも常に優れています。
論文 参考訳(メタデータ) (2024-05-31T14:00:44Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Ring Attention with Blockwise Transformers for Near-Infinite Context [88.61687950039662]
本稿では,複数のデバイスにまたがって長いシーケンスを分散するために,ブロックワイドな自己注意とフィードフォワードの計算を利用する,ブロックワイドトランスフォーマーを用いたリングアテンション(リングアテンション)を提案する。
提案手法では,先行メモリ効率の変換器で達成可能なものよりも,デバイス数倍のシーケンスのトレーニングと推論が可能となる。
論文 参考訳(メタデータ) (2023-10-03T08:44:50Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。