論文の概要: Optimal Control for Transformer Architectures: Enhancing Generalization, Robustness and Efficiency
- arxiv url: http://arxiv.org/abs/2505.13499v1
- Date: Fri, 16 May 2025 00:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.340141
- Title: Optimal Control for Transformer Architectures: Enhancing Generalization, Robustness and Efficiency
- Title(参考訳): 変圧器アーキテクチャの最適制御:一般化,ロバスト性,効率性の向上
- Authors: Kelvin Kan, Xingjian Li, Benjamin J. Zhang, Tuhin Sahai, Stanley Osher, Markos A. Katsoulakis,
- Abstract要約: 最適制御理論の観点からトランスフォーマーを考察し、連続時間定式化のツールを用いて、トレーニングとアーキテクチャ設計に関する実用的な洞察を導出する。
このフレームワークは、一般化や堅牢性を含む望ましい理論的保証を提供しながら、既存のTransformerモデルの性能を改善している。
我々は,テキスト生成,感情分析,画像分類,点雲分類を動機とするタスクについて,広範囲にわたる7つの実験を行った。
- 参考スコア(独自算出の注目度): 5.369214258095039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study Transformers through the perspective of optimal control theory, using tools from continuous-time formulations to derive actionable insights into training and architecture design. This framework improves the performance of existing Transformer models while providing desirable theoretical guarantees, including generalization and robustness. Our framework is designed to be plug-and-play, enabling seamless integration with established Transformer models and requiring only slight changes to the implementation. We conduct seven extensive experiments on tasks motivated by text generation, sentiment analysis, image classification, and point cloud classification. Experimental results show that the framework improves the test performance of the baselines, while being more parameter-efficient. On character-level text generation with nanoGPT, our framework achieves a 46% reduction in final test loss while using 42% fewer parameters. On GPT-2, our framework achieves a 5.6% reduction in final test loss, demonstrating scalability to larger models. To the best of our knowledge, this is the first work that applies optimal control theory to both the training and architecture of Transformers. It offers a new foundation for systematic, theory-driven improvements and moves beyond costly trial-and-error approaches.
- Abstract(参考訳): 最適制御理論の観点からトランスフォーマーを考察し、連続時間定式化のツールを用いて、トレーニングとアーキテクチャ設計に関する実用的な洞察を導出する。
このフレームワークは、一般化や堅牢性を含む望ましい理論的保証を提供しながら、既存のTransformerモデルの性能を改善している。
我々のフレームワークはプラグイン・アンド・プレイで設計されており、確立したTransformerモデルとのシームレスな統合を可能にし、実装にわずかな変更しか必要としない。
我々は,テキスト生成,感情分析,画像分類,点雲分類を動機とするタスクについて,広範囲にわたる7つの実験を行った。
実験結果から,本フレームワークは,パラメータ効率を向上しつつ,ベースラインのテスト性能を向上させることが示された。
NanoGPTを用いた文字レベルのテキスト生成では,パラメータを42%減らしながら最終テスト損失の46%削減を実現している。
GPT-2では、我々のフレームワークは最終テスト損失を5.6%削減し、より大きなモデルに拡張性を示す。
我々の知る限りでは、トランスフォーマーのトレーニングとアーキテクチャの両方に最適な制御理論を適用する最初の研究である。
体系的で理論駆動的な改善のための新たな基盤を提供し、コストのかかる試行錯誤アプローチを越えている。
関連論文リスト
- OT-Transformer: A Continuous-time Transformer Architecture with Optimal Transport Regularization [1.7180235064112577]
制御方程式が変圧器ブロックによってパラメータ化される力学系を考える。
最適輸送理論を利用してトレーニング問題を正規化し、トレーニングの安定性を高め、結果として得られるモデルの一般化を改善する。
論文 参考訳(メタデータ) (2025-01-30T22:52:40Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Refining Joint Text and Source Code Embeddings for Retrieval Task with Parameter-Efficient Fine-Tuning [0.0]
そこで本研究では,それを利用した微調整フレームワークを提案する。
PEFT(Efficient Fine-Tuning)技術。
提案する微調整フレームワークは,最大で0.4%のパラメータをチューニングすることで,コードテキスト検索性能を向上させる可能性を実証した。
論文 参考訳(メタデータ) (2024-05-07T08:50:25Z) - Efficient Training for Visual Tracking with Deformable Transformer [0.0]
本稿では、エンドツーエンドのビジュアルオブジェクト追跡フレームワークであるDETRackを紹介する。
本フレームワークは、変形可能なトランスデコーダがターゲットヘッドとして機能する効率的なエンコーダ・デコーダ構造を用いる。
トレーニングには,新しい1対多ラベルの割り当てと補助的認知技術を導入する。
論文 参考訳(メタデータ) (2023-09-06T03:07:43Z) - Efficient GPT Model Pre-training using Tensor Train Matrix
Representation [65.96485282393361]
大規模なトランスフォーマーモデルは数十億のパラメータを特徴としており、デプロイが困難になり、スクラッチからトレーニングコストが禁じられている。
GPT-2アーキテクチャのパラメータ数を削減すべく、完全に接続された層の行列を対応するTrain Matrix(TTM)構造に置き換える。
GPTベースのモデルは最大40%のパラメータを格納し、元のモデルに匹敵するパープレキシティを示す。
論文 参考訳(メタデータ) (2023-06-05T08:38:25Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。