Fugu-MT 論文翻訳(概要): Transformers from an Optimization Perspective

論文の概要: Transformers from an Optimization Perspective

arxiv url: http://arxiv.org/abs/2205.13891v1
Date: Fri, 27 May 2022 10:45:15 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-30 14:47:33.030310
Title: Transformers from an Optimization Perspective
Title（参考訳）: 最適化から見た変圧器
Authors: Yongyi Yang, Zengfeng Huang, David Wipf
Abstract要約: 本研究では,トランスフォーマーモデルに基づくエネルギー関数の探索問題について検討する。このような関数を見つけることで、解釈可能な最適化プロセスの展開として変換器を再解釈することができる。この研究はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。
参考スコア（独自算出の注目度）: 24.78739299952529
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning models such as the Transformer are often constructed by heuristics and experience. To provide a complementary foundation, in this work we study the following problem: Is it possible to find an energy function underlying the Transformer model, such that descent steps along this energy correspond with the Transformer forward pass? By finding such a function, we can reinterpret Transformers as the unfolding of an interpretable optimization process across iterations. This unfolding perspective has been frequently adopted in the past to elucidate more straightforward deep models such as MLPs and CNNs; however, it has thus far remained elusive obtaining a similar equivalence for more complex models with self-attention mechanisms like the Transformer. To this end, we first outline several major obstacles before providing companion techniques to at least partially address them, demonstrating for the first time a close association between energy function minimization and deep layers with self-attention. This interpretation contributes to our intuition and understanding of Transformers, while potentially laying the ground-work for new model designs.
Abstract（参考訳）: Transformerのようなディープラーニングモデルは、しばしばヒューリスティックと経験によって構築される。変圧器モデルの基礎となるエネルギー関数を見つけることは可能か、このエネルギーに沿った降下ステップが変圧器の前進パスに対応するか? このような関数を見つけることで、Transformerをイテレーション間で解釈可能な最適化プロセスの展開として再解釈することができる。この展開的な視点は過去に、mlpやcnnのようなより単純な深層モデルを明らかにするために頻繁に採用されてきたが、トランスフォーマーのような自己着脱機構を持つより複雑なモデルに対して同様の等価性を得ることは、これまでは分かっていない。この目的のために,我々はまず,エネルギー関数の最小化と自己注意の深い深層との密接な関係を示すために,少なくとも部分的に対処する技術を提供する前に,いくつかの主要な障害を概説した。この解釈はトランスフォーマーの直感と理解に寄与し、新しいモデル設計の基礎を築き上げている可能性がある。

関連論文リスト

YuriiFormer: A Suite of Nesterov-Accelerated Transformers [62.40952219538543]
本稿では,トークン埋め込みに作用する最適化アルゴリズムの繰り返しとして,トランスフォーマー層を解釈する変分フレームワークを提案する。この観点では、自己注意は相互作用エネルギーの勾配ステップを実装し、層はポテンシャルエネルギーの勾配更新に対応する。標準のGPT型変圧器は、この2つのエネルギーの間でLie-Trotterスプリッティングによって実装された複合目的物のバニラ勾配降下として出現する。
論文参考訳（メタデータ） (2026-01-30T18:06:21Z)
Wavy Transformer [5.4806374384787695]
本稿では,第2次波動力学に基づく新しい注目層を構成するWavy Transformerを提案する。また,チェーンルールの下での物理的状態-速度関係を維持するために,フィードフォワードネットワークと正規化層を導入する。
論文参考訳（メタデータ） (2025-08-18T10:03:38Z)
Hyperspherical Energy Transformer with Recurrent Depth [32.04194224236952]
トランスフォーマーベースの基礎モデルは、膨大なパラメータと計算資源で前例のない成功を収めた。次世代アーキテクチャを進化させるためには、高い解釈可能性と実用的な能力を持つモデルが必要である。本報告では,バニラ変圧器のリカレント深さの代替として,textitHyper-Spherical Energy Transformer (Hyper-SET)を提案する。
論文参考訳（メタデータ） (2025-02-17T10:39:11Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。モデルがトレーニングサンプルを記憶するにつれて、一般化能力が向上する。本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。
論文参考訳（メタデータ） (2024-05-14T15:48:36Z)
TransformerFAM: Feedback attention is working memory [18.005034679674274]
本稿では,フィードバックループを利用した新しいトランスフォーマーアーキテクチャを提案する。 TransformerFAMは追加の重みを必要とせず、事前訓練されたモデルとのシームレスな統合を可能にする。
論文参考訳（メタデータ） (2024-04-14T07:43:45Z)
Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文参考訳（メタデータ） (2023-11-29T13:51:04Z)
Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文参考訳（メタデータ） (2023-10-09T13:40:31Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
XAI for Transformers: Better Explanations through Conservative Propagation [60.67748036747221]
変換器の勾配は局所的にのみ関数を反映しており、入力特徴の予測への寄与を確実に識別できないことを示す。我々の提案は、よく確立されたLPP法のトランスフォーマーへの適切な拡張と見なすことができる。
論文参考訳（メタデータ） (2022-02-15T10:47:11Z)
Augmented Shortcuts for Vision Transformers [49.70151144700589]
視覚変換器モデルにおけるショートカットと特徴の多様性の関係について検討する。本稿では,元のショートカットに並列に学習可能なパラメータを追加経路を挿入する拡張ショートカット方式を提案する。ベンチマークデータセットを用いて実験を行い,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2021-06-30T09:48:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。