論文の概要: Positional Attention: Out-of-Distribution Generalization and Expressivity for Neural Algorithmic Reasoning
- arxiv url: http://arxiv.org/abs/2410.01686v1
- Date: Wed, 2 Oct 2024 15:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:03:18.809646
- Title: Positional Attention: Out-of-Distribution Generalization and Expressivity for Neural Algorithmic Reasoning
- Title(参考訳): 位置注意:ニューラルアルゴリズム推論のための分布外一般化と表現性
- Authors: Artur Back de Luca, George Giapitzakis, Shenghao Yang, Petar Veličković, Kimon Fountoulakis,
- Abstract要約: 固定位置符号化を用いて注意重みを推定する手法を提案する。
位置対応型トランスフォーマーは並列アルゴリズムを効果的にシミュレートできることを示す。
- 参考スコア(独自算出の注目度): 6.181408276896225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been a growing interest in the ability of neural networks to solve algorithmic tasks, such as arithmetic, summary statistics, and sorting. While state-of-the-art models like Transformers have demonstrated good generalization performance on in-distribution tasks, their out-of-distribution (OOD) performance is poor when trained end-to-end. In this paper, we focus on value generalization, a common instance of OOD generalization where the test distribution has the same input sequence length as the training distribution, but the value ranges in the training and test distributions do not necessarily overlap. To address this issue, we propose that using fixed positional encodings to determine attention weights-referred to as positional attention-enhances empirical OOD performance while maintaining expressivity. We support our claim about expressivity by proving that Transformers with positional attention can effectively simulate parallel algorithms.
- Abstract(参考訳): 算術、要約統計、ソートといったアルゴリズムタスクを解くニューラルネットワークの能力に対する関心が高まっている。
Transformersのような最先端のモデルは、分散タスクに対して優れた一般化性能を示してきたが、訓練されたエンドツーエンドでは、そのアウト・オブ・ディストリビューション(OOD)性能は貧弱である。
本稿では,テスト分布がトレーニング分布と同じ入力シーケンス長を持つOOD一般化の一般的な例である値一般化に着目するが,トレーニング分布とテスト分布の値範囲は必ずしも重複しない。
この問題に対処するために,固定位置符号化を用いて注意重みを求める手法を提案する。
我々は、位置対応型トランスフォーマーが並列アルゴリズムを効果的にシミュレートできることを証明し、表現性に関する主張を支持する。
関連論文リスト
- Toward Relative Positional Encoding in Spiking Transformers [52.62008099390541]
スパイキングニューラルネットワーク(スパイキングニューラルネット、英: Spiking Neural Network、SNN)は、脳内のニューロンが離散スパイクを通してどのように通信するかをモデル化するバイオインスパイアネットワークである。
本稿では,スパイキング変換器における相対位置符号化(RPE)の近似手法を提案する。
論文 参考訳(メタデータ) (2025-01-28T06:42:37Z) - Continual Low-Rank Scaled Dot-product Attention [67.11704350478475]
我々は,連続的推論に適したNystr"om近似に基づくスケールド・プロダクツ・アテンションの新しい定式化を導入する。
オンライン音声分類およびオンライン行動検出タスクの実験において、提案した連続的スケールド・プロダクト・アテンションは、最大3桁の操作数を削減できる。
論文 参考訳(メタデータ) (2024-12-04T11:05:01Z) - DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - Contextual Counting: A Mechanistic Study of Transformers on a Quantitative Task [40.85615657802704]
本稿では,トランスフォーマーの理解を深めるための新しい玩具問題である文脈カウントタスクを紹介する。
因果的および非因果的トランスフォーマーアーキテクチャを用いた理論的および経験的解析を行った。
論文 参考訳(メタデータ) (2024-05-30T20:52:23Z) - Understanding Transformer Reasoning Capabilities via Graph Algorithms [25.08208816144745]
我々は、トランスフォーマースケーリングレギュレーションがアルゴリズムの様々なクラスを完璧に解けるかを検討する。
その結果、トランスフォーマーは多くのグラフ推論タスクで優れており、特殊なグラフニューラルネットワークよりも優れています。
論文 参考訳(メタデータ) (2024-05-28T18:31:14Z) - Transformers, parallel computation, and logarithmic depth [33.659870765923884]
我々は,一定数の自己注意層が,大規模並列計算の通信ラウンドを効率よくシミュレートし,シミュレートできることを示す。
論文 参考訳(メタデータ) (2024-02-14T15:54:55Z) - Understanding In-Context Learning in Transformers and LLMs by Learning
to Learn Discrete Functions [32.59746882017483]
本論文では,トランスフォーマーが一つのタスクを解くために2つの異なるアルゴリズムを実装することを学習できることを示す。
また,既存のLarge Language Models (LLMs) は,予測タスクにおいて最寄りのベースラインと競合することを示す。
論文 参考訳(メタデータ) (2023-10-04T17:57:33Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Representational Strengths and Limitations of Transformers [33.659870765923884]
我々は,注目層の表現力について,肯定的な結果と否定的な結果の両方を定めている。
トランスにおける大きな埋め込み次元の必要性と役割を示す。
また、注意層によって効率的に解ける自然変種も提示する。
論文 参考訳(メタデータ) (2023-06-05T14:05:04Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。
ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文 参考訳(メタデータ) (2020-09-30T13:18:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。