論文の概要: Transformers from an Optimization Perspective
- arxiv url: http://arxiv.org/abs/2205.13891v1
- Date: Fri, 27 May 2022 10:45:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 14:47:33.030310
- Title: Transformers from an Optimization Perspective
- Title(参考訳): 最適化から見た変圧器
- Authors: Yongyi Yang, Zengfeng Huang, David Wipf
- Abstract要約: 本研究では,トランスフォーマーモデルに基づくエネルギー関数の探索問題について検討する。
このような関数を見つけることで、解釈可能な最適化プロセスの展開として変換器を再解釈することができる。
この研究はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
- 参考スコア(独自算出の注目度): 24.78739299952529
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models such as the Transformer are often constructed by
heuristics and experience. To provide a complementary foundation, in this work
we study the following problem: Is it possible to find an energy function
underlying the Transformer model, such that descent steps along this energy
correspond with the Transformer forward pass? By finding such a function, we
can reinterpret Transformers as the unfolding of an interpretable optimization
process across iterations. This unfolding perspective has been frequently
adopted in the past to elucidate more straightforward deep models such as MLPs
and CNNs; however, it has thus far remained elusive obtaining a similar
equivalence for more complex models with self-attention mechanisms like the
Transformer. To this end, we first outline several major obstacles before
providing companion techniques to at least partially address them,
demonstrating for the first time a close association between energy function
minimization and deep layers with self-attention. This interpretation
contributes to our intuition and understanding of Transformers, while
potentially laying the ground-work for new model designs.
- Abstract(参考訳): Transformerのようなディープラーニングモデルは、しばしばヒューリスティックと経験によって構築される。
変圧器モデルの基礎となるエネルギー関数を見つけることは可能か、このエネルギーに沿った降下ステップが変圧器の前進パスに対応するか?
このような関数を見つけることで、Transformerをイテレーション間で解釈可能な最適化プロセスの展開として再解釈することができる。
この展開的な視点は過去に、mlpやcnnのようなより単純な深層モデルを明らかにするために頻繁に採用されてきたが、トランスフォーマーのような自己着脱機構を持つより複雑なモデルに対して同様の等価性を得ることは、これまでは分かっていない。
この目的のために,我々はまず,エネルギー関数の最小化と自己注意の深い深層との密接な関係を示すために,少なくとも部分的に対処する技術を提供する前に,いくつかの主要な障害を概説した。
この解釈はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
関連論文リスト
- Do Efficient Transformers Really Save Computation? [34.15764596496696]
我々は、効率的な変換器、特にスパース変換器と線形変換器の機能と限界に焦点を当てる。
以上の結果から,これらのモデルは一般のDPタスクを解くのに十分な表現力を持っているが,期待とは裏腹に,問題のサイズに合わせてスケールするモデルサイズが必要であることが示唆された。
我々は,これらのモデルが標準のTransformerよりも効率的であるようなDP問題のクラスを同定する。
論文 参考訳(メタデータ) (2024-02-21T17:00:56Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - Transformer Fusion with Optimal Transport [21.522230384127347]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では,複数のトランスポートを利用したトランスフォーマーネットワークを融合する手法を提案する。
我々のアプローチはバニラ融合を一貫して上回り、驚くほど短い微調整の後、個々の収束親モデルも上回ります。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - XAI for Transformers: Better Explanations through Conservative
Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。
我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文 参考訳(メタデータ) (2022-02-15T10:47:11Z) - Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。
本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。
ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2021-06-30T09:48:30Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。