論文の概要: State-space models through the lens of ensemble control
- arxiv url: http://arxiv.org/abs/2603.13587v1
- Date: Fri, 13 Mar 2026 20:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.28604
- Title: State-space models through the lens of ensemble control
- Title(参考訳): アンサンブル制御レンズによる状態空間モデル
- Authors: Ye Feng, Jianfeng Lu,
- Abstract要約: 状態空間モデル(SSM)はシーケンシャルなモデリングに有効なアーキテクチャである。
アンサンブル最適制御問題としてSSMのトレーニングを定式化する。
逐次近似法に基づくアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 7.072792245801286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-space models (SSMs) are effective architectures for sequential modeling, but a rigorous theoretical understanding of their training dynamics is still lacking. In this work, we formulate the training of SSMs as an ensemble optimal control problem, where a shared control law governs a population of input-dependent dynamical systems. We derive Pontryagin's maximum principle (PMP) for this ensemble control formulation, providing necessary conditions for optimality. Motivated by these conditions, we introduce an algorithm based on the method of successive approximations. We prove convergence of this iterative scheme along a subsequence and establish sufficient conditions for global optimality. The resulting framework provides a control-theoretic perspective on SSM training.
- Abstract(参考訳): 状態空間モデル(SSM)はシーケンシャルモデリングに有効なアーキテクチャであるが、そのトレーニング力学に関する厳密な理論的理解はいまだに欠けている。
本研究では,共有制御法則が入力依存力学系の集団を制御しているアンサンブル最適制御問題として,SSMのトレーニングを定式化する。
我々は、このアンサンブル制御の定式化のためにポントリャーギンの最大原理(PMP)を導出し、最適性に必要な条件を提供する。
これらの条件により、逐次近似法に基づくアルゴリズムを導入する。
我々は、この反復スキームのサブシーケンスに沿った収束を証明し、大域的最適性のための十分な条件を確立する。
結果として得られるフレームワークは、SSMトレーニングに関する制御理論的な視点を提供する。
関連論文リスト
- An Optimal Control Approach To Transformer Training [7.136933021609078]
重要な構造的制約を尊重するトランスフォーマートレーニングに対する厳密な最適制御理論アプローチを開発する。
確率測度に引き上げることによって、完全に観測されたマルコフ決定過程(MDP)が生成されることを示す。
トランスフォーマーを訓練するために,状態空間,確率測度,行動空間を定量化することにより,昇降型MDPの3次元量子化訓練手順を提案する。
論文 参考訳(メタデータ) (2026-03-10T12:17:48Z) - The Dirac--Bergmann approach to optimal control theory [0.0]
古典系と量子系の両方において最適制御のための新しい枠組みを提案する。
制御理論で用いられる標準ポントリャーギンの原理とは対照的に、我々の手法は最適解を得るために変分を実行する必要性を回避している。
論文 参考訳(メタデータ) (2025-06-21T06:23:22Z) - RL-finetuning LLMs from on- and off-policy data with a single algorithm [53.70731390624718]
大規模言語モデルを微調整するための新しい強化学習アルゴリズム(AGRO)を提案する。
AGROは生成整合性の概念を利用しており、最適ポリシーはモデルの任意の世代間での整合性の概念を満たすと述べている。
サンプルベースの政策勾配による最適解を求めるアルゴリズムを導出し,その収束に関する理論的保証を提供する。
論文 参考訳(メタデータ) (2025-03-25T12:52:38Z) - Predictive Lagrangian Optimization for Constrained Reinforcement Learning [15.082498910832529]
制約付き最適化は、複雑な制御タスクに対処するための強化学習で一般的に見られる。
本稿では,制約付き最適化とフィードバック制御システムとの接続を構築するための,より汎用的な等価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-25T13:39:45Z) - Receding Hamiltonian-Informed Optimal Neural Control and State Estimation for Closed-Loop Dynamical Systems [4.05766189327054]
Hamiltonian-Informed Optimal Neural (Hion) コントローラは、動的システムのためのニューラルネットワークベースの新しいクラスである。
ヒオンコントローラは将来の状態を推定し、ポントリャーギンの最大原理を用いた最適制御戦略を開発する。
論文 参考訳(メタデータ) (2024-11-02T16:06:29Z) - Distributed Bayesian Learning of Dynamic States [65.7870637855531]
提案アルゴリズムは有限状態隠れマルコフモデルに対する分散ベイズフィルタタスクである。
逐次状態推定や、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。
論文 参考訳(メタデータ) (2022-12-05T19:40:17Z) - Sparsity in Partially Controllable Linear Systems [56.142264865866636]
本研究では, 部分制御可能な線形力学系について, 基礎となる空間パターンを用いて検討する。
最適制御には無関係な状態変数を特徴付ける。
論文 参考訳(メタデータ) (2021-10-12T16:41:47Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - A Dynamical Systems Approach for Convergence of the Bayesian EM
Algorithm [59.99439951055238]
我々は、(離散時間)リアプノフ安定性理論が、必ずしも勾配ベースではない最適化アルゴリズムの分析(および潜在的な設計)において、いかに強力なツールとして役立つかを示す。
本稿では,不完全データベイズフレームワークにおけるパラメータ推定を,MAP-EM (maximum a reari expectation-maximization) と呼ばれる一般的な最適化アルゴリズムを用いて行うことに着目したML問題について述べる。
高速収束(線形あるいは二次的)が達成され,S&Cアプローチを使わずに発表することが困難であった可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-23T01:34:18Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。