Fugu-MT 論文翻訳(概要): Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization

論文の概要: Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization

arxiv url: http://arxiv.org/abs/2409.19345v2
Date: Fri, 22 Nov 2024 11:24:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.139441
Title: Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization
Title（参考訳）: 視覚における変圧器のアンヴェイルベニグアオーバーフィッティング:トレーニングダイナミクス,収束,一般化
Authors: Jiarui Jiang, Wei Huang, Miao Zhang, Taiji Suzuki, Liqiang Nie,
Abstract要約: 本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
参考スコア（独自算出の注目度）: 88.5582111768376
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers have demonstrated great power in the recent development of large foundational models. In particular, the Vision Transformer (ViT) has brought revolutionary changes to the field of vision, achieving significant accomplishments on the experimental side. However, their theoretical capabilities, particularly in terms of generalization when trained to overfit training data, are still not fully understood. To address this gap, this work delves deeply into the benign overfitting perspective of transformers in vision. To this end, we study the optimization of a Transformer composed of a self-attention layer with softmax followed by a fully connected layer under gradient descent on a certain data distribution model. By developing techniques that address the challenges posed by softmax and the interdependent nature of multiple weights in transformer optimization, we successfully characterized the training dynamics and achieved generalization in post-training. Our results establish a sharp condition that can distinguish between the small test error phase and the large test error regime, based on the signal-to-noise ratio in the data model. The theoretical results are further verified by experimental simulation. To the best of our knowledge, this is the first work to characterize benign overfitting for Transformers.
Abstract（参考訳）: トランスフォーマーは、近年の大きな基礎モデルの開発において大きな力を発揮している。特にビジョントランスフォーマー(ViT)は、視覚の分野で革命的な変化をもたらし、実験的な面で大きな成果を上げている。しかし、その理論的能力、特にトレーニングデータに適合する訓練の際の一般化については、まだ完全には理解されていない。このギャップに対処するため、この研究は視覚におけるトランスフォーマーの良心的な過度な視点を深く掘り下げている。そこで本研究では,ソフトマックスの自己保持層と,勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。変圧器最適化におけるソフトマックスによる課題と多重みの相互依存特性に対処する手法を開発することにより, トレーニング力学を特徴付けることができ, ポストトレーニングにおける一般化を実現した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。理論的結果は実験によりさらに検証される。私たちの知る限りでは、トランスフォーマーのベニグオーバーフィッティングを特徴付ける最初の作品です。

関連論文リスト

Mixture-of-Transformers Learn Faster: A Theoretical Study on Classification Problems [59.94955550958074]
本研究では,各変圧器ブロックが連続的に訓練されたゲーティングネットワークによって制御される専門家として機能する,トラクタブルな理論的枠組みについて検討する。専門家の専門化は、勾配の衝突を減らし、各サブタスクを強く凸させることを示す。トレーニングによって予測損失が$O(log(epsilon-1)$のステップでゼロに近づき、単一変圧器の$O(epsilon-1)$のレートよりも大幅に向上することが証明された。
論文参考訳（メタデータ） (2025-10-30T21:07:36Z)
Understanding Generalization in Transformers: Error Bounds and Training Dynamics Under Benign and Harmful Overfitting [36.149708427591534]
ラベル付きフリップノイズをもつ2層変圧器の一般化理論を開発する。信号-雑音比の異なるベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグ我々は、変圧器の試験誤差に影響を与える重要な要因を特定するために、広範囲な実験を行う。
論文参考訳（メタデータ） (2025-02-18T03:46:01Z)
OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization [1.7180235064112577]
制御方程式が変圧器ブロックによってパラメータ化される力学系を考える。最適輸送理論を利用してトレーニング問題を正規化し、トレーニングの安定性を高め、結果として得られるモデルの一般化を改善する。
論文参考訳（メタデータ） (2025-01-30T22:52:40Z)
Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。この設定における多層トランスの理論的解析はこれが初めてである。
論文参考訳（メタデータ） (2024-10-10T18:29:05Z)
Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文参考訳（メタデータ） (2024-09-25T20:22:06Z)
Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文参考訳（メタデータ） (2024-06-24T23:00:58Z)
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。モデルがトレーニングサンプルを記憶するにつれて、一般化能力が向上する。本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。
論文参考訳（メタデータ） (2024-05-14T15:48:36Z)
Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文参考訳（メタデータ） (2023-05-26T00:43:02Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文参考訳（メタデータ） (2021-04-26T13:13:03Z)
Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。 vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。 ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文参考訳（メタデータ） (2020-12-17T22:33:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。