論文の概要: An Optimal Control Approach To Transformer Training
- arxiv url: http://arxiv.org/abs/2603.09571v1
- Date: Tue, 10 Mar 2026 12:17:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.288317
- Title: An Optimal Control Approach To Transformer Training
- Title(参考訳): 変圧器訓練における最適制御手法
- Authors: Kağan Akman, Naci Saldı, Serdar Yüksel,
- Abstract要約: 重要な構造的制約を尊重するトランスフォーマートレーニングに対する厳密な最適制御理論アプローチを開発する。
確率測度に引き上げることによって、完全に観測されたマルコフ決定過程(MDP)が生成されることを示す。
トランスフォーマーを訓練するために,状態空間,確率測度,行動空間を定量化することにより,昇降型MDPの3次元量子化訓練手順を提案する。
- 参考スコア(独自算出の注目度): 7.136933021609078
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we develop a rigorous optimal control-theoretic approach to Transformer training that respects key structural constraints such as (i) realized-input-independence during execution, (ii) the ensemble control nature of the problem, and (iii) positional dependence. We model the Transformer architecture as a discrete-time controlled particle system with shared actions, exhibiting noise-free McKean-Vlasov dynamics. While the resulting dynamics is not Markovian, we show that lifting it to probability measures produces a fully-observed Markov decision process (MDP). Positional encodings are incorporated into the state space to preserve the sequence order under lifting. Using the dynamic programming principle, we establish the existence of globally optimal policies under mild assumptions of compactness. We further prove that closed-loop policies in the lifted is equivalent to an initial-distribution dependent open-loop policy, which are realized-input-independent and compatible with standard Transformer training. To train a Transformer, we propose a triply quantized training procedure for the lifted MDP by quantizing the state space, the space of probability measures, and the action space, and show that any optimal policy for the triply quantized model is near-optimal for the original training problem. Finally, we establish stability and empirical consistency properties of the lifted model by showing that the value function is continuous with respect to the perturbations of the initial empirical measures and convergence of policies as the data size increases. This approach provides a globally optimal and robust alternative to gradient-based training without requiring smoothness or convexity.
- Abstract(参考訳): 本稿では,トランスフォーマートレーニングにおける厳密な最適制御-理論的アプローチを開発し,重要な構造的制約を尊重する。
(i)実行中に実現された入出力
二 問題の合奏制御の性質、及び
(三)位置依存
我々は、Transformerアーキテクチャを離散時間制御粒子系としてモデル化し、ノイズのないマッケイン・ヴラソフ力学を示す。
結果の力学はマルコフ的ではないが、確率測度へ持ち上げると完全に観測されたマルコフ決定過程(MDP)が生じることを示す。
位置エンコーディングは状態空間に組み込まれ、リフト中のシーケンス順序を保存する。
動的プログラミングの原理を用いて、コンパクト性の軽度な仮定の下で、世界的最適政策の存在を確立する。
さらに、リフトドにおけるクローズドループポリシーは、インプット非依存かつ標準トランスフォーマートレーニングと互換性のある、初期分布依存のオープンループポリシーと等価であることを示す。
トランスフォーマーをトレーニングするために,状態空間,確率測度,行動空間を定量化し,三次量子化モデルの最適ポリシが元のトレーニング問題に対してほぼ最適であることを示す,揚力MDPのための三次量子化トレーニング手順を提案する。
最後に、データサイズが大きくなるにつれて、最初の経験的尺度の摂動とポリシーの収束に関して、値関数が連続であることを示し、揚力モデルの安定性と経験的整合性を確立する。
このアプローチは、滑らかさや凸性を必要とせずに、勾配ベースのトレーニングに対して、グローバルに最適で堅牢な代替手段を提供する。
関連論文リスト
- Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing [1.0312968200748118]
Rectified Flowモデルは最先端の世代品質を実現するが、正確なタスクのためにそれらを制御することは依然として困難である。
現在のアプローチは「幾何学的ロック」に苦しむ逆法に基づくガイダンスに分岐する
Score-Guided Proximal Projectionは,決定論的最適化と縮尺サンプリングのギャップを埋める統一フレームワークである。
論文 参考訳(メタデータ) (2026-03-05T23:44:45Z) - VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training [18.849117699859622]
訓練安定性は、大規模言語モデルの強化学習における中心的な課題である。
変動周波数レベルのソフトポリシー最適化(VESPO)を提案する。
数学的推論ベンチマークの実験では、VESPOは安定なトレーニングを64倍の安定度と完全な非同期実行で維持している。
論文 参考訳(メタデータ) (2026-02-11T09:48:08Z) - Iterative Refinement of Flow Policies in Probability Space for Online Reinforcement Learning [56.47948583452555]
固定ステップのEulerスキームによるフローマッチング推論プロセスの離散化は,最適輸送から変化するJordan-Kinderlehrer-Otto原理と整合する,というキーインサイトに基づいて,SWFP(Stepwise Flow Policy)フレームワークを紹介した。
SWFPは、大域的な流れを、プロキシメート分布間の小さな漸進的な変換の列に分解する。
この分解は、小さな流れブロックのカスケードを介して事前訓練された流れを微調整する効率的なアルゴリズムを導き、大きな利点をもたらす。
論文 参考訳(メタデータ) (2025-10-17T07:43:51Z) - Distributionally Robust Control with End-to-End Statistically Guaranteed Metric Learning [5.309590159815129]
我々は、新しいエンドツーエンド有限ホライズン・ワッサーシュタイン DRC フレームワークを提案する。
これは、異方性ワッサースタインメトリクスの学習と下流制御タスクを閉ループ方式で統合する。
提案手法は,最先端手法と比較して,クローズドループ性能とロバスト性に優れることを示す。
論文 参考訳(メタデータ) (2025-10-11T13:40:49Z) - Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - ACPO: Adaptive Curriculum Policy Optimization for Aligning Vision-Language Models in Complex Reasoning [17.928214942495412]
ACPOは、安定的で、準政治的な探索段階から、効率的で、非政治的な搾取段階へ、原則的な移行を編成する動的カリキュラムを採用している。
我々は、MathVista、LogicVista、MMMU-Proなど、挑戦的なマルチモーダル推論ベンチマークのスイートで広範な実験を行う。
その結果,ACPOはDAPOやPAPOなどの強いベースラインを一貫して上回り,最先端性能,収束の促進,訓練安定性の向上を実現している。
論文 参考訳(メタデータ) (2025-10-01T09:11:27Z) - A learning-based approach to stochastic optimal control under reach-avoid constraint [8.354731976915588]
我々は,リーチアビド制約を受けるマルコフ系を最適に制御するためのモデルフリーアプローチを開発する。
適切な仮定の下では、政策パラメータが最適パラメータに収束し、システム軌道が到達不能な制約を高い確率で満たすことが保証される。
論文 参考訳(メタデータ) (2024-12-21T10:07:40Z) - Formal Controller Synthesis for Markov Jump Linear Systems with
Uncertain Dynamics [64.72260320446158]
マルコフジャンプ線形系に対する制御器の合成法を提案する。
本手法は,MJLSの離散(モードジャンピング)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。
本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。
論文 参考訳(メタデータ) (2022-12-01T17:36:30Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。