論文の概要: Language Generation as Optimal Control: Closed-Loop Diffusion in Latent Control Space
- arxiv url: http://arxiv.org/abs/2605.14531v1
- Date: Thu, 14 May 2026 08:13:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 00:43:04.10929
- Title: Language Generation as Optimal Control: Closed-Loop Diffusion in Latent Control Space
- Title(参考訳): 最適制御としての言語生成:潜在制御空間における閉ループ拡散
- Authors: ZiYi Dong, Yuliang Huang, Weijian Deng, Xiangyang Ji, Liang Lin, Pengxu Wei,
- Abstract要約: 本研究は,言語生成を最適制御問題として再検討する。
自己回帰モデルと拡散モデルを分析するための統一された理論的な視点を提供する。
- 参考スコア(独自算出の注目度): 99.30250506439678
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This work reformulates language generation as a stochastic optimal control problem, providing a unified theoretical perspective to analyze autoregressive and diffusion models and explain their limitations (Efficiency-Fidelity Paradox, Irreversibility Error Propagation, Optimization Tractability and Fidelity) in terms of combination of trajectory singularity, adjoint state vanishing, and gradient absence. To address these issues, we approximate the solution to the Hamilton-Jacobi-Bellman (HJB) equation, yielding an optimal policy that acts as a closed-loop controller. To bypass the intractability of directly solving the HJB PDE, we employ Flow Matching as the optimal trajectory solver within the rectified latent control space. This allows our Manta-LM with Global Integral Operator to approximate the global vector field, effectively realizing a model that simultaneously achieves high-fidelity text generation and efficient, low-cost parallel sampling. Empirically, our method achieves strong performance on language modeling and conditional generation tasks, while exhibiting improved stability, efficiency, and controllability.
- Abstract(参考訳): この研究は、言語生成を確率論的最適制御問題として再構成し、自己回帰モデルと拡散モデルを分析し、それらの制限(効率性-フィデリティパラドックス、不可逆誤差伝播、最適化トラクタビリティ、フィデリティ)を軌道特異性、随伴状態の消滅、勾配不在の組合せで説明するための統一的な理論的視点を提供する。
これらの問題に対処するため、ハミルトン・ヤコビ・ベルマン方程式 (HJB) の解を近似し、閉ループコントローラとして機能する最適なポリシーを導出する。
HJB PDEを直接解く際の難易度を回避するため,修正潜在制御空間内の最適軌道解法としてフローマッチングを用いる。
これにより,manta-LMとGlobal Integral Operatorがグローバルベクトル場を近似し,高忠実度テキスト生成と高効率で低コストな並列サンプリングを実現するモデルを効果的に実現することができる。
提案手法は,安定性,効率,制御性の向上を図りながら,言語モデリングや条件生成タスクにおいて高い性能を達成する。
関連論文リスト
- Subspace Control: Turning Constrained Model Steering into Controllable Spectral Optimization [27.280175507074322]
制約付きモデルトレーニングのためのサブスペース制御フレームワークを提案する。
SIFT (spectral interference-free training) は、すべてのタスクにおいて、実質的で堅牢なパフォーマンス改善を一貫して達成する。
論文 参考訳(メタデータ) (2026-04-05T19:27:24Z) - LFPO: Likelihood-Free Policy Optimization for Masked Diffusion Models [48.68246945083386]
Likelihood-Free Policy Optimization (LFPO) は、ベクトル場フローの概念を離散トークン空間にマッピングするネイティブフレームワークである。
LFPOは幾何速度補正としてアライメントを定式化し、対照的な更新によって直接対流を最適化する。
実験によると、LFPOはコードと推論ベンチマークの最先端のベースラインを上回るだけでなく、拡散ステップの削減によって推論を約20%加速する。
論文 参考訳(メタデータ) (2026-03-02T07:42:55Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Stochastic Control Methods for Optimization [0.0]
ユークリッド設定では、正規化制御問題の問題を解析する。
大域的な測度では、マスターフィールド問題によって特徴づけられる正規化された平均場問題を定式化する。
論文 参考訳(メタデータ) (2026-01-03T17:55:26Z) - Parallel Diffusion Solver via Residual Dirichlet Policy Optimization [88.7827307535107]
拡散モデル(DM)は、最先端の生成性能を達成したが、シーケンシャルなデノナイジング特性のため、高いサンプリング遅延に悩まされている。
既存のソルバベースの加速度法では、低次元の予算で画像品質が著しく低下することが多い。
本研究では,各ステップに複数の勾配並列評価を組み込んだ新しいODE解法であるEnsemble Parallel Directionsolvr(EPD-EPr)を提案する。
論文 参考訳(メタデータ) (2025-12-28T05:48:55Z) - Learning based convex approximation for constrained parametric optimization [11.379408842026981]
本稿では、制約付き最適化問題を解決するために、入力ニューラルネットワーク(ICNN)に基づく自己教師付き学習フレームワークを提案する。
厳密な収束解析を行い、このフレームワークが元の問題のKKT近似点に収束することを示す。
提案手法は精度,実現可能性,計算効率の両立を実現している。
論文 参考訳(メタデータ) (2025-05-07T00:33:14Z) - Latent Bayesian Optimization via Autoregressive Normalizing Flows [17.063294409131238]
本研究では,正規化フローに基づくベイズ最適化(NF-BO)を提案する。
提案手法は,分子生成タスクにおいて優れた性能を示し,従来のLBO手法と最近のLBO手法の両方を著しく上回っている。
論文 参考訳(メタデータ) (2025-04-21T06:36:09Z) - Stochastic Optimal Control Matching [53.156277491861985]
最適制御のための新しい反復拡散最適化(IDO)技術である最適制御マッチング(SOCM)を導入する。
この制御は、一致するベクトル場に適合しようとすることで、最小二乗問題を通じて学習される。
実験により,本アルゴリズムは最適制御のための既存のすべての IDO 手法よりも低い誤差を実現する。
論文 参考訳(メタデータ) (2023-12-04T16:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。