論文の概要: Positional Attention: Out-of-Distribution Generalization and Expressivity for Neural Algorithmic Reasoning
- arxiv url: http://arxiv.org/abs/2410.01686v1
- Date: Wed, 2 Oct 2024 15:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 16:03:18.809646
- Title: Positional Attention: Out-of-Distribution Generalization and Expressivity for Neural Algorithmic Reasoning
- Title(参考訳): 位置注意:ニューラルアルゴリズム推論のための分布外一般化と表現性
- Authors: Artur Back de Luca, George Giapitzakis, Shenghao Yang, Petar Veličković, Kimon Fountoulakis,
- Abstract要約: 固定位置符号化を用いて注意重みを推定する手法を提案する。
位置対応型トランスフォーマーは並列アルゴリズムを効果的にシミュレートできることを示す。
- 参考スコア(独自算出の注目度): 6.181408276896225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been a growing interest in the ability of neural networks to solve algorithmic tasks, such as arithmetic, summary statistics, and sorting. While state-of-the-art models like Transformers have demonstrated good generalization performance on in-distribution tasks, their out-of-distribution (OOD) performance is poor when trained end-to-end. In this paper, we focus on value generalization, a common instance of OOD generalization where the test distribution has the same input sequence length as the training distribution, but the value ranges in the training and test distributions do not necessarily overlap. To address this issue, we propose that using fixed positional encodings to determine attention weights-referred to as positional attention-enhances empirical OOD performance while maintaining expressivity. We support our claim about expressivity by proving that Transformers with positional attention can effectively simulate parallel algorithms.
- Abstract(参考訳): 算術、要約統計、ソートといったアルゴリズムタスクを解くニューラルネットワークの能力に対する関心が高まっている。
Transformersのような最先端のモデルは、分散タスクに対して優れた一般化性能を示してきたが、訓練されたエンドツーエンドでは、そのアウト・オブ・ディストリビューション(OOD)性能は貧弱である。
本稿では,テスト分布がトレーニング分布と同じ入力シーケンス長を持つOOD一般化の一般的な例である値一般化に着目するが,トレーニング分布とテスト分布の値範囲は必ずしも重複しない。
この問題に対処するために,固定位置符号化を用いて注意重みを求める手法を提案する。
我々は、位置対応型トランスフォーマーが並列アルゴリズムを効果的にシミュレートできることを証明し、表現性に関する主張を支持する。
関連論文リスト
- CRoFT: Robust Fine-Tuning with Concurrent Optimization for OOD Generalization and Open-Set OOD Detection [42.33618249731874]
トレーニングデータにおけるエネルギースコアの最大化は、ドメイン一貫性のあるヘッセンの分類損失につながることを示す。
我々は,両タスクの同時最適化を可能にする統合された微調整フレームワークを開発した。
論文 参考訳(メタデータ) (2024-05-26T03:28:59Z) - DIVERSIFY: A General Framework for Time Series Out-of-distribution
Detection and Generalization [58.704753031608625]
時系列は、機械学習研究における最も困難なモダリティの1つである。
時系列上でのOODの検出と一般化は、その非定常性によって悩まされる傾向がある。
時系列の動的分布のOOD検出と一般化のためのフレームワークであるDIVERSIFYを提案する。
論文 参考訳(メタデータ) (2023-08-04T12:27:11Z) - On the Importance of Feature Separability in Predicting
Out-Of-Distribution Error [25.995311155942016]
そこで本研究では,分布シフト時のテスト精度を推定するために,特徴分散に基づくデータセットレベルスコアを提案する。
本手法は,表現学習における特徴の望ましい特性,すなわちクラス間分散とクラス内コンパクト性に着想を得たものである。
論文 参考訳(メタデータ) (2023-03-27T09:52:59Z) - Towards Better Out-of-Distribution Generalization of Neural Algorithmic
Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。
目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文 参考訳(メタデータ) (2022-11-01T18:33:20Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Invariant Causal Mechanisms through Distribution Matching [86.07327840293894]
本研究では、因果的視点と不変表現を学習するための新しいアルゴリズムを提供する。
実験により,このアルゴリズムは様々なタスク群でうまく動作し,特にドメインの一般化における最先端のパフォーマンスを観察する。
論文 参考訳(メタデータ) (2022-06-23T12:06:54Z) - Predicting Deep Neural Network Generalization with Perturbation Response
Curves [58.8755389068888]
トレーニングネットワークの一般化能力を評価するための新しいフレームワークを提案する。
具体的には,一般化ギャップを正確に予測するための2つの新しい尺度を提案する。
PGDL(Predicting Generalization in Deep Learning)のNeurIPS 2020コンペティションにおけるタスクの大部分について、現在の最先端の指標よりも優れた予測スコアを得る。
論文 参考訳(メタデータ) (2021-06-09T01:37:36Z) - Translational Equivariance in Kernelizable Attention [3.236198583140341]
本稿では,カーネル可能な注意に基づく効率的なトランスフォーマにおいて,翻訳等価性を実現する方法を示す。
実験では,提案手法が入力画像のシフトに対する演奏者のロバスト性を大幅に改善することを強調する。
論文 参考訳(メタデータ) (2021-02-15T17:14:15Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。