論文の概要: Transformers from an Optimization Perspective
- arxiv url: http://arxiv.org/abs/2205.13891v1
- Date: Fri, 27 May 2022 10:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 14:47:33.030310
- Title: Transformers from an Optimization Perspective
- Title(参考訳): 最適化から見た変圧器
- Authors: Yongyi Yang, Zengfeng Huang, David Wipf
- Abstract要約: 本研究では,トランスフォーマーモデルに基づくエネルギー関数の探索問題について検討する。
このような関数を見つけることで、解釈可能な最適化プロセスの展開として変換器を再解釈することができる。
この研究はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
- 参考スコア(独自算出の注目度): 24.78739299952529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models such as the Transformer are often constructed by
heuristics and experience. To provide a complementary foundation, in this work
we study the following problem: Is it possible to find an energy function
underlying the Transformer model, such that descent steps along this energy
correspond with the Transformer forward pass? By finding such a function, we
can reinterpret Transformers as the unfolding of an interpretable optimization
process across iterations. This unfolding perspective has been frequently
adopted in the past to elucidate more straightforward deep models such as MLPs
and CNNs; however, it has thus far remained elusive obtaining a similar
equivalence for more complex models with self-attention mechanisms like the
Transformer. To this end, we first outline several major obstacles before
providing companion techniques to at least partially address them,
demonstrating for the first time a close association between energy function
minimization and deep layers with self-attention. This interpretation
contributes to our intuition and understanding of Transformers, while
potentially laying the ground-work for new model designs.
- Abstract(参考訳): Transformerのようなディープラーニングモデルは、しばしばヒューリスティックと経験によって構築される。
変圧器モデルの基礎となるエネルギー関数を見つけることは可能か、このエネルギーに沿った降下ステップが変圧器の前進パスに対応するか?
このような関数を見つけることで、Transformerをイテレーション間で解釈可能な最適化プロセスの展開として再解釈することができる。
この展開的な視点は過去に、mlpやcnnのようなより単純な深層モデルを明らかにするために頻繁に採用されてきたが、トランスフォーマーのような自己着脱機構を持つより複雑なモデルに対して同様の等価性を得ることは、これまでは分かっていない。
この目的のために,我々はまず,エネルギー関数の最小化と自己注意の深い深層との密接な関係を示すために,少なくとも部分的に対処する技術を提供する前に,いくつかの主要な障害を概説した。
この解釈はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。
モデルがトレーニングサンプルを記憶するにつれて、一般化能力が向上する。
本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。
論文 参考訳(メタデータ) (2024-05-14T15:48:36Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。