論文の概要: On the Existence of Universal Simulators of Attention
- arxiv url: http://arxiv.org/abs/2506.18739v1
- Date: Mon, 23 Jun 2025 15:15:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.049209
- Title: On the Existence of Universal Simulators of Attention
- Title(参考訳): 普遍的注意シミュレータの存在について
- Authors: Debanjan Dutta, Faizanuddin Ansari, Anish Chakrabarty, Swagatam Das,
- Abstract要約: 注意出力と基礎となる基本行列を同一に再現し、RASPを介してアクティベーション操作を行う方法を提案する。
我々の証明は、これまで学習によってのみ近似することが知られていたアルゴリズムによって達成可能なデータ非依存の解の存在を初めて示すものである。
- 参考スコア(独自算出の注目度): 17.01811978811789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior work on the learnability of transformers has established its capacity to approximate specific algorithmic patterns through training under restrictive architectural assumptions. Fundamentally, these arguments remain data-driven and therefore can only provide a probabilistic guarantee. Expressivity, on the contrary, has theoretically been explored to address the problems \emph{computable} by such architecture. These results proved the Turing-completeness of transformers, investigated bounds focused on circuit complexity, and formal logic. Being at the crossroad between learnability and expressivity, the question remains: \emph{can transformer architectures exactly simulate an arbitrary attention mechanism, or in particular, the underlying operations?} In this study, we investigate the transformer encoder's ability to simulate a vanilla attention mechanism. By constructing a universal simulator $\mathcal{U}$ composed of transformer encoders, we present algorithmic solutions to identically replicate attention outputs and the underlying elementary matrix and activation operations via RASP, a formal framework for transformer computation. Our proofs, for the first time, show the existence of an algorithmically achievable data-agnostic solution, previously known to be approximated only by learning.
- Abstract(参考訳): 変圧器の学習性に関する以前の研究は、限定的なアーキテクチャ仮定の下でのトレーニングを通じて、特定のアルゴリズムパターンを近似する能力を確立してきた。
基本的に、これらの議論はデータ駆動であり、従って確率的保証しか提供できない。
それとは対照的に、表現性は、そのようなアーキテクチャによる問題 \emph{computable} に対処するために理論的に研究されている。
これらの結果は、変換器のチューリング完全性を証明し、回路複雑性と形式論理に焦点をあてた境界について検討した。
emph{can transformer architecturesは、任意の注意機構、特に基礎となる操作を正確にシミュレートしますか?
The study, we investigated the transformer encoder's ability tosimulated a vanilla attention mechanism。
変圧器エンコーダで構成されたユニバーサルシミュレータ$\mathcal{U}$を構築することにより、アテンション出力と基礎となる基本行列とアクティベーション演算を同一に再現するアルゴリズムソリューションを提案する。
我々の証明は、これまで学習によってのみ近似することが知られていたアルゴリズムによって達成可能なデータ非依存の解の存在を初めて示すものである。
関連論文リスト
- Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。
我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文 参考訳(メタデータ) (2025-05-30T12:39:26Z) - Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器の1次論理的推論能力をパラメータ化知識を用いて一般化する。
本稿では,一階述語論理エンターメントの性能を大幅に向上させる論理認識アーキテクチャTEGAを提案する。
論文 参考訳(メタデータ) (2025-01-01T07:05:32Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Transformer Meets Boundary Value Inverse Problems [4.165221477234755]
変圧器を用いた深部直接サンプリング法は境界値逆問題のクラスを解くために提案される。
慎重に設計されたデータと再構成された画像の間に学習した逆演算子を評価することにより、リアルタイムな再構成を実現する。
論文 参考訳(メタデータ) (2022-09-29T17:45:25Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。