論文の概要: Safety-Critical Contextual Control via Online Riemannian Optimization with World Models
- arxiv url: http://arxiv.org/abs/2604.19639v1
- Date: Tue, 21 Apr 2026 16:28:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.869978
- Title: Safety-Critical Contextual Control via Online Riemannian Optimization with World Models
- Title(参考訳): 世界モデルを用いたオンラインリーマン最適化による安全批判的文脈制御
- Authors: Tongxin Li,
- Abstract要約: そこでは,ブラックボックスシミュレータによる実行可能性サンプルのみを用いて,プランナがタスク目標を最適化する必要がある。
我々は,オンラインリーマン最適化に基づくPinalized Predictive Controlフレームワークを開発した。
我々の主な結果は、真実現可能多様体からの距離がスコア推定誤差と$(_t)$に依存する比率によって制御されていることを示す文脈的安全性境界であり、どちらもよりリッチな文脈で改善されている。
- 参考スコア(独自算出の注目度): 7.720387326648637
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern world models are becoming too complex to admit explicit dynamical descriptions. We study safety-critical contextual control, where a Planner must optimize a task objective using only feasibility samples from a black-box Simulator, conditioned on a context signal $ξ_t$. We develop a sample-based Penalized Predictive Control (PPC) framework grounded in online Riemannian optimization, in which the Simulator compresses the feasibility manifold into a score-based density $\hat{p}(u \mid ξ_t)$ that endows the action space with a Riemannian geometry guiding the Planner's gradient descent. The barrier curvature $κ(ξ_t)$, the minimum curvature of the conditional log-density $-\ln\hat{p}(\cdot\midξ_t)$, governs both convergence rate and safety margin, replacing the Lipschitz constant of the unknown dynamics. Our main result is a contextual safety bound showing that the distance from the true feasibility manifold is controlled by the score estimation error and a ratio that depends on $κ(ξ_t)$, both of which improve with richer context. Simulations on a dynamic navigation task confirm that contextual PPC substantially outperforms marginal and frozen density models, with the advantage growing after environment shifts.
- Abstract(参考訳): 現代の世界モデルは、明示的な動的記述を受け入れるには複雑すぎる。
そこでは,ブラックボックスシミュレータによる実行可能性サンプルのみを用いてタスク目標の最適化を行う。
オンラインリーマン最適化に基づくサンプルベースPinalized Predictive Control (PPC) フレームワークを開発し、シミュレータは実現可能多様体をスコアベース密度$\hat{p}(u \mid >_t)$に圧縮する。
障壁曲率 $κ(a_t)$, 条件付き対数密度 $-\ln\hat{p}(\cdot\mid _t)$ は収束率と安全マージンの両方を支配し、未知の力学のリプシッツ定数を置き換える。
我々の主な結果は、真実現可能多様体からの距離がスコア推定誤差によって制御され、それぞれがよりリッチな文脈で改善されるような$κ(\_t)$に依存することを示す文脈的安全性境界である。
動的ナビゲーションタスクのシミュレーションにより、文脈的PPCは、環境シフト後の利点の増加とともに、限界密度モデルと凍結密度モデルを大幅に上回っていることを確認した。
関連論文リスト
- Bridging Theory and Practice in Crafting Robust Spiking Reservoirs [0.0]
スパイキング貯水池コンピューティングは、時間的処理に対するエネルギー効率のよいアプローチを提供するが、確実に貯水池を調整してカオスの端で作動させることは困難である。
この研究は、ロバストネス間隔を導入して活用することによって、臨界性と実践的安定性の抽象概念を橋渡しする。
論文 参考訳(メタデータ) (2026-04-07T19:29:21Z) - $V_{0.5}$: Generalist Value Model as a Prior for Sparse RL Rollouts [81.48669089692189]
一般値モデル(例えば$V_0.5$)は、コンテキスト内のモデル機能を明示的にエンコードすることで、事前訓練された値推定を実現する。
本稿では,このような値モデルにより予測されるベースラインと,スパースロールアウトから導出される経験的平均とを適応的に融合する$V_0.5$を提案する。
V_0.5$はGRPOとDAPOを大きく上回り、より高速な収束と約10%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2026-03-11T14:57:41Z) - $κ$-Explorer: A Unified Framework for Active Model Estimation in MDPs [20.944349513772067]
固有推定複雑性と訪問頻度を明示的に組み込んだ目的関数のパラメタ化ファミリを$U_$で導入する。
本稿では,Frank-Wolfe方式の探索アルゴリズムである$-Explorerを提案する。
MDPのベンチマーク実験では、$$-Explorerが既存の探索戦略よりも優れたパフォーマンスを提供することが示された。
論文 参考訳(メタデータ) (2026-02-23T22:56:32Z) - ProAct: Agentic Lookahead in Interactive Environments [56.50613398808361]
ProActは、2段階のトレーニングパラダイムを通じて、エージェントが正確なルックアヘッド推論を内部化することを可能にするフレームワークである。
そこでは,環境に基づく探索から得られたトラジェクトリの微調整をエージェントが行うGLAD(Grounded LookAhead Distillation)を紹介する。
また,政策段階のアルゴリズムを改良する補助値推定器であるモンテカルロ批判(MC-Critic)を提案する。
論文 参考訳(メタデータ) (2026-02-05T05:45:16Z) - Provably Efficient Sample Complexity for Robust CMDP [7.060086147428817]
安全制約を満たしつつ累積報酬を最大化する学習政策の問題点を考察する。
我々は,強固な制約付きマルコフ決定プロセス(RCMDPs)に焦点を当てる。そこではエージェントは,累積効用がしきい値を超えることを保証しながら報酬を最大化しなければならない。
本稿では,ロバスト制約値反復(RCVI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-10T04:40:37Z) - Minimax Adaptive Online Nonparametric Regression over Besov Spaces [8.691764858459623]
我々は,連続的かつ極めて不規則な予測規則の豊富なクラスに対して,凸損失を伴うオンライン逆回帰について検討した。
本稿では,$(s,p,q)$の事前知識を必要とせずに逐次予測を行う適応ウェーブレットベースのアルゴリズムを提案する。
また、空間的不均一な滑らかさを動的に追跡できる局所適応拡張を設計する。
論文 参考訳(メタデータ) (2025-05-26T09:23:11Z) - Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。