Fugu-MT 論文翻訳(概要): Positional Attention: Expressivity and Learnability of Algorithmic Computation

論文の概要: Positional Attention: Expressivity and Learnability of Algorithmic Computation

arxiv url: http://arxiv.org/abs/2410.01686v2
Date: Sat, 01 Feb 2025 04:14:51 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-04 15:57:53.222687
Title: Positional Attention: Expressivity and Learnability of Algorithmic Computation
Title（参考訳）: 位置注意:アルゴリズム計算の表現性と学習性
Authors: Artur Back de Luca, George Giapitzakis, Shenghao Yang, Petar Veličković, Kimon Fountoulakis,
Abstract要約: この研究は、アルゴリズム実行におけるトランスフォーマーにおける注意の役割をよりよく理解することを目的としている。位置対応変換器(位置対応変換器)は並列計算モデルと同じ表現性を持つことを示す。パラメータノルムにより良い理論的依存を示す一方で、特定のタスクはより多くの層を必要とする可能性がある。
参考スコア（独自算出の注目度）: 6.181408276896225
License: http://creativecommons.org/licenses/by/4.0/
Abstract: There is a growing interest in the ability of neural networks to execute algorithmic tasks (e.g., arithmetic, summary statistics, and sorting). The goal of this work is to better understand the role of attention in Transformers for algorithmic execution. Its importance for algorithmic execution has been studied theoretically and empirically using parallel computational models. Notably, many parallel algorithms communicate between processors solely using positional information. Inspired by this observation, we investigate how Transformers can execute algorithms using positional attention, where attention weights depend exclusively on positional encodings. We prove that Transformers with positional attention (positional Transformers) maintain the same expressivity of parallel computational models, incurring a logarithmic depth cost relative to the input length. We analyze their in-distribution learnability and explore how parameter norms in positional attention affect sample complexity. Our results show that positional Transformers introduce a learning trade-off: while they exhibit better theoretical dependence on parameter norms, certain tasks may require more layers, which can, in turn, increase sample complexity. Finally, we empirically explore the out-of-distribution performance of positional Transformers and find that they perform well in tasks where their underlying algorithmic solution relies on positional information.
Abstract（参考訳）: ニューラルネットワークがアルゴリズムタスク(例えば、算術、要約統計、ソート)を実行する能力への関心が高まっている。この研究の目的は、アルゴリズム実行におけるトランスフォーマーの役割をよりよく理解することである。アルゴリズム実行におけるその重要性は、並列計算モデルを用いて理論的および経験的に研究されている。特に、多くの並列アルゴリズムは、位置情報のみを用いてプロセッサ間で通信する。この観測にインスパイアされたトランスフォーマーは,注目重みが位置エンコーディングにのみ依存する位置アテンションを用いて,どのようにアルゴリズムを実行できるかを検討する。位置対応変換器(位置対応変換器)が並列計算モデルの同じ表現性を保ち、入力長に対して対数深度コストが発生することを証明した。本研究では,その分布内学習性を分析し,パラメータノルムが標本の複雑さに与える影響について検討する。パラメータノルムにより良い理論的依存を示す一方で、特定のタスクにはより多くのレイヤが必要であり、それによってサンプルの複雑さが増大する可能性がある。最後に,位置変換器のアウト・オブ・ディストリビューション性能を実証的に検討し,その基礎となるアルゴリズム解が位置情報に依存するタスクにおいて良好に動作することを示す。

関連論文リスト

Provable In-Context Learning of Nonlinear Regression with Transformers [58.018629320233174]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。最近の研究はICLの背後にあるトレーニングダイナミクスを積極的に探求している。本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文参考訳（メタデータ） (2025-07-28T00:09:28Z)
How Transformers Learn Regular Language Recognition: A Theoretical Study on Training Dynamics and Implicit Bias [48.9399496805422]
我々は「偶対」と「パリティチェック」と呼ばれる正規言語認識のカテゴリにおける2つの代表的タスクに焦点をあてる。我々のゴールは、注意層と線形層からなる一層トランスフォーマーが、これらの課題をいかに解決するかを探求することである。
論文参考訳（メタデータ） (2025-05-02T00:07:35Z)
Toward Relative Positional Encoding in Spiking Transformers [52.62008099390541]
スパイキングニューラルネットワーク(スパイキングニューラルネット、英: Spiking Neural Network、SNN)は、脳内のニューロンが離散スパイクを通してどのように通信するかをモデル化するバイオインスパイアネットワークである。本稿では,スパイキング変換器における相対位置符号化(RPE)の近似手法を提案する。
論文参考訳（メタデータ） (2025-01-28T06:42:37Z)
Continual Low-Rank Scaled Dot-product Attention [67.11704350478475]
我々は,連続的推論に適したNystr"om近似に基づくスケールド・プロダクツ・アテンションの新しい定式化を導入する。オンライン音声分類およびオンライン行動検出タスクの実験において、提案した連続的スケールド・プロダクト・アテンションは、最大3桁の操作数を削減できる。
論文参考訳（メタデータ） (2024-12-04T11:05:01Z)
DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文参考訳（メタデータ） (2024-10-07T07:21:49Z)
Contextual Counting: A Mechanistic Study of Transformers on a Quantitative Task [40.85615657802704]
本稿では,トランスフォーマーの理解を深めるための新しい玩具問題である文脈カウントタスクを紹介する。因果的および非因果的トランスフォーマーアーキテクチャを用いた理論的および経験的解析を行った。
論文参考訳（メタデータ） (2024-05-30T20:52:23Z)
Understanding Transformer Reasoning Capabilities via Graph Algorithms [25.08208816144745]
我々は、トランスフォーマースケーリングレギュレーションがアルゴリズムの様々なクラスを完璧に解けるかを検討する。その結果、トランスフォーマーは多くのグラフ推論タスクで優れており、特殊なグラフニューラルネットワークよりも優れています。
論文参考訳（メタデータ） (2024-05-28T18:31:14Z)
CRoFT: Robust Fine-Tuning with Concurrent Optimization for OOD Generalization and Open-Set OOD Detection [42.33618249731874]
トレーニングデータにおけるエネルギースコアの最大化は、ドメイン一貫性のあるヘッセンの分類損失につながることを示す。我々は,両タスクの同時最適化を可能にする統合された微調整フレームワークを開発した。
論文参考訳（メタデータ） (2024-05-26T03:28:59Z)
Transformers, parallel computation, and logarithmic depth [33.659870765923884]
我々は,一定数の自己注意層が,大規模並列計算の通信ラウンドを効率よくシミュレートし,シミュレートできることを示す。
論文参考訳（メタデータ） (2024-02-14T15:54:55Z)
Understanding In-Context Learning in Transformers and LLMs by Learning to Learn Discrete Functions [32.59746882017483]
本論文では,トランスフォーマーが一つのタスクを解くために2つの異なるアルゴリズムを実装することを学習できることを示す。また,既存のLarge Language Models (LLMs) は,予測タスクにおいて最寄りのベースラインと競合することを示す。
論文参考訳（メタデータ） (2023-10-04T17:57:33Z)
DIVERSIFY: A General Framework for Time Series Out-of-distribution Detection and Generalization [58.704753031608625]
時系列は、機械学習研究における最も困難なモダリティの1つである。時系列上でのOODの検出と一般化は、その非定常性によって悩まされる傾向がある。時系列の動的分布のOOD検出と一般化のためのフレームワークであるDIVERSIFYを提案する。
論文参考訳（メタデータ） (2023-08-04T12:27:11Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
Representational Strengths and Limitations of Transformers [33.659870765923884]
我々は,注目層の表現力について,肯定的な結果と否定的な結果の両方を定めている。トランスにおける大きな埋め込み次元の必要性と役割を示す。また、注意層によって効率的に解ける自然変種も提示する。
論文参考訳（メタデータ） (2023-06-05T14:05:04Z)
On the Importance of Feature Separability in Predicting Out-Of-Distribution Error [25.995311155942016]
そこで本研究では,分布シフト時のテスト精度を推定するために,特徴分散に基づくデータセットレベルスコアを提案する。本手法は,表現学習における特徴の望ましい特性,すなわちクラス間分散とクラス内コンパクト性に着想を得たものである。
論文参考訳（メタデータ） (2023-03-27T09:52:59Z)
Towards Better Out-of-Distribution Generalization of Neural Algorithmic Reasoning Tasks [51.8723187709964]
ニューラルネットワーク推論タスクのOOD一般化について検討する。目標は、ディープニューラルネットワークを使用して入出力ペアからアルゴリズムを学ぶことである。
論文参考訳（メタデータ） (2022-11-01T18:33:20Z)
Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文参考訳（メタデータ） (2022-10-11T08:26:19Z)
Invariant Causal Mechanisms through Distribution Matching [86.07327840293894]
本研究では、因果的視点と不変表現を学習するための新しいアルゴリズムを提供する。実験により,このアルゴリズムは様々なタスク群でうまく動作し,特にドメインの一般化における最先端のパフォーマンスを観察する。
論文参考訳（メタデータ） (2022-06-23T12:06:54Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
Predicting Deep Neural Network Generalization with Perturbation Response Curves [58.8755389068888]
トレーニングネットワークの一般化能力を評価するための新しいフレームワークを提案する。具体的には,一般化ギャップを正確に予測するための2つの新しい尺度を提案する。 PGDL(Predicting Generalization in Deep Learning)のNeurIPS 2020コンペティションにおけるタスクの大部分について、現在の最先端の指標よりも優れた予測スコアを得る。
論文参考訳（メタデータ） (2021-06-09T01:37:36Z)
Translational Equivariance in Kernelizable Attention [3.236198583140341]
本稿では,カーネル可能な注意に基づく効率的なトランスフォーマにおいて,翻訳等価性を実現する方法を示す。実験では,提案手法が入力画像のシフトに対する演奏者のロバスト性を大幅に改善することを強調する。
論文参考訳（メタデータ） (2021-02-15T17:14:15Z)
Learning Hard Retrieval Decoder Attention for Transformers [69.40942736249397]
トランスフォーマー変換モデルは、容易に並列化できるマルチヘッドアテンション機構に基づいている。ハード検索の注意機構は復号化の1.43倍高速であることを示す。
論文参考訳（メタデータ） (2020-09-30T13:18:57Z)
MUTANT: A Training Paradigm for Out-of-Distribution Generalization in Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。 MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文参考訳（メタデータ） (2020-09-18T00:22:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。