論文の概要: Provable optimal transport with transformers: The essence of depth and prompt engineering
- arxiv url: http://arxiv.org/abs/2410.19931v2
- Date: Fri, 01 Nov 2024 16:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 14:32:52.086745
- Title: Provable optimal transport with transformers: The essence of depth and prompt engineering
- Title(参考訳): 変圧器による予測可能な最適輸送 : 深度と急速工学の本質
- Authors: Hadi Daneshmand,
- Abstract要約: 固定パラメータを持つ変圧器は任意の点数のエントロピー正則化でワッサーシュタイン2の最適輸送問題を効果的に解くことができることを示す。
提案手法は, 変圧器が双対最適輸送に適応的な段差で勾配降下を実現できるように設計したプロンプトに頼っている。
- 参考スコア(独自算出の注目度): 2.8597439883196953
- License:
- Abstract: Can we establish provable performance guarantees for transformers? Establishing such theoretical guarantees is a milestone in developing trustworthy generative AI. In this paper, we take a step toward addressing this question by focusing on optimal transport, a fundamental problem at the intersection of combinatorial and continuous optimization. Leveraging the computational power of attention layers, we prove that a transformer with fixed parameters can effectively solve the optimal transport problem in Wasserstein-2 with entropic regularization for an arbitrary number of points. Consequently, the transformer can sort lists of arbitrary sizes up to an approximation factor. Our results rely on an engineered prompt that enables the transformer to implement gradient descent with adaptive stepsizes on the dual optimal transport. Combining the convergence analysis of gradient descent with Sinkhorn dynamics, we establish an explicit approximation bound for optimal transport with transformers, which improves as depth increases. Our findings provide novel insights into the essence of prompt engineering and depth for solving optimal transport. In particular, prompt engineering boosts the algorithmic expressivity of transformers, allowing them implement an optimization method. With increasing depth, transformers can simulate several iterations of gradient descent.
- Abstract(参考訳): 変圧器の性能保証を保証できるか?
このような理論的保証を確立することは、信頼できる生成AIを開発する上でのマイルストーンである。
本稿では,組合せ最適化と連続最適化の交点における基本的問題である最適輸送に着目し,この問題に対処するための一歩を踏み出した。
注意層の計算力を生かして、固定パラメータを持つ変圧器が任意の点数に対してエントロピー正規化を施したワッサーシュタイン2の最適輸送問題を効果的に解くことができることを示す。
これにより、任意のサイズのリストを近似係数までソートすることができる。
提案手法は, 変圧器が双対最適輸送に適応的な段差で勾配降下を実現できるように設計したプロンプトに頼っている。
勾配降下の収束解析とシンクホーン動力学を組み合わせることで,変圧器を用いた最適輸送に対する明示的な近似が確立され,深度が増大するにつれて向上する。
本研究は, 最適輸送を解くために, 迅速な工学と深度の本質について, 新たな知見を提供するものである。
特に、プロンプトエンジニアリングはトランスフォーマーのアルゴリズム表現性を高め、最適化手法の実装を可能にする。
深さが大きくなると、変圧器は勾配降下の繰り返しをシミュレートすることができる。
関連論文リスト
- Unraveling the Gradient Descent Dynamics of Transformers [37.096572564254515]
グラディエント・Descent (GD) は、特に入力埋め込み次元が大きい場合、大域的最適解を達成するためにトランスフォーマーモデルを訓練することができる。
ソフトマックスとガウスアテンションカーネルを用いて単一トランスフォーマー層の損失状況を分析する。
論文 参考訳(メタデータ) (2024-11-12T04:33:56Z) - On the Optimization and Generalization of Two-layer Transformers with Sign Gradient Descent [51.50999191584981]
Sign Gradient Descent (SignGD) はアダムの効果的なサロゲートである。
我々はSignGDが雑音の多いデータセット上で2層トランスを最適化する方法について検討する。
SignGDの一般化が不十分なのはデータノイズによるものではなく、SignGDとAdamの両方が現実世界のタスクに高品質なデータを必要とすることを示唆している。
論文 参考訳(メタデータ) (2024-10-07T09:36:43Z) - Co-Designing Binarized Transformer and Hardware Accelerator for Efficient End-to-End Edge Deployment [3.391499691517567]
トランスフォーマーモデルはAIタスクに革命をもたらしたが、その大きなサイズはリソース制約やレイテンシクリティカルなエッジデバイスへの実際のデプロイメントを妨げる。
本稿では, アルゴリズム, ハードウェア, 共同最適化の3つの側面から, トランスフォーマーのエンドツーエンド配置を効率的に行うための設計手法を提案する。
実験の結果,2.14-49.37倍のスループット向上と3.72-88.53倍のエネルギー効率を実現した。
論文 参考訳(メタデータ) (2024-07-16T12:36:10Z) - Linear Transformers are Versatile In-Context Learners [19.988368693379087]
線形変圧器の各層が負の線形回帰問題に対する重みベクトルを維持していることを示す。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
ここでは,線形変圧器が複雑かつ高効率な最適化アルゴリズムを発見することを実証する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - On the Expressive Power of a Variant of the Looped Transformer [83.30272757948829]
我々はアルゴリズム能力でトランスフォーマーを強化するために、AlgoFormerと呼ばれる新しいトランスフォーマーブロックを設計する。
提案したAlgoFormerは、同じ数のパラメータを使用する場合、アルゴリズム表現においてはるかに高い精度を達成することができる。
いくつかの理論的および実証的な結果は、設計されたトランスフォーマーが、人間設計のアルゴリズムよりも賢い可能性があることを示している。
論文 参考訳(メタデータ) (2024-02-21T07:07:54Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - HEAT: Hardware-Efficient Automatic Tensor Decomposition for Transformer
Compression [69.36555801766762]
本稿では,分解可能な指数空間を効率的に探索できるハードウェア対応テンソル分解フレームワークHEATを提案する。
ハードウェア対応のBERT変異体は, エネルギー遅延を5.7倍に低減し, 精度が1.1%以下であることを示す。
論文 参考訳(メタデータ) (2022-11-30T05:31:45Z) - Momentum Transformer: Closing the Performance Gap Between Self-attention
and Its Linearization [31.28396970291575]
効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。
まず、勾配降下ステップとして注目マップの計算における線形注意と残差接続を解釈する。
次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させるために運動量を利用するエンファンモーメント変換器を提案する。
論文 参考訳(メタデータ) (2022-08-01T02:37:49Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。