論文の概要: Bellman Value Decomposition for Task Logic in Safe Optimal Control
- arxiv url: http://arxiv.org/abs/2602.19532v1
- Date: Mon, 23 Feb 2026 05:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.640177
- Title: Bellman Value Decomposition for Task Logic in Safe Optimal Control
- Title(参考訳): 安全な最適制御におけるタスク論理のベルマン値分解
- Authors: William Sharpless, Oswin So, Dylan Hirsch, Sylvia Herbert, Chuchu Fan,
- Abstract要約: 本稿では,ベルマン値の固有構造を,自動性能向上のための問題を自然に整理する手段として考える。
すなわち、時間論理で定義された複雑なタスクに対するベルマン値がベルマン値のグラフに分解できることを示す。
本稿では,分割値グラフを2層ニューラルネットワークに埋め込んだVDPPOを提案する。
- 参考スコア(独自算出の注目度): 18.32953901945506
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world tasks involve nuanced combinations of goal and safety specifications. In high dimensions, the challenge is exacerbated: formal automata become cumbersome, and the combination of sparse rewards tends to require laborious tuning. In this work, we consider the innate structure of the Bellman Value as a means to naturally organize the problem for improved automatic performance. Namely, we prove the Bellman Value for a complex task defined in temporal logic can be decomposed into a graph of Bellman Values, connected by a set of well-known Bellman equations (BEs): the Reach-Avoid BE, the Avoid BE, and a novel type, the Reach-Avoid-Loop BE. To solve the Value and optimal policy, we propose VDPPO, which embeds the decomposed Value graph into a two-layer neural net, bootstrapping the implicit dependencies. We conduct a variety of simulated and hardware experiments to test our method on complex, high-dimensional tasks involving heterogeneous teams and nonlinear dynamics. Ultimately, we find this approach greatly improves performance over existing baselines, balancing safety and liveness automatically.
- Abstract(参考訳): 現実世界のタスクには、ゴールと安全仕様の微妙な組み合わせが含まれる。
形式的なオートマトンは煩雑になり、スパース報酬の組み合わせは厳しいチューニングを必要とする傾向にある。
本研究では,ベルマン値の固有構造を,自動性能向上のための問題を自然に整理する手段として考察する。
すなわち、時間論理で定義された複素タスクに対するベルマン値がベルマン値のグラフに分解され、よく知られたベルマン方程式の集合(リーチ・エイヴォイド BE, エイヴォイド BE, および新しいタイプのリーチ・エイヴォイド・ループ BE)で連結されることを示す。
本稿では,分割された値グラフを2層ニューラルネットワークに埋め込み,暗黙の依存関係をブートストラップするVDPPOを提案する。
ヘテロジニアスなチームや非線形力学を含む複雑な高次元タスクに対して,様々なシミュレーションおよびハードウェア実験を行った。
結局のところ、このアプローチは既存のベースラインよりもパフォーマンスを大幅に改善し、安全性と活力のバランスを保ちます。
関連論文リスト
- Latent Spherical Flow Policy for Reinforcement Learning with Combinatorial Actions [31.697208397735395]
既存のアプローチでは、タスク固有の値関数を制約付き最適化プログラムに組み込むか、決定論的構造化ポリシーを学習し、汎用性とポリシー表現性を犠牲にする。
本稿では, 設計による実現性を確保しつつ, 近代的な生成ポリシーの表現性をRLにもたらす, 解法による球面フローポリシーを提案する。
我々のアプローチは、さまざまな課題RLタスクにおいて、最先端のベースラインを平均20.6%上回る。
論文 参考訳(メタデータ) (2026-01-29T18:49:07Z) - Networked Restless Multi-Arm Bandits with Reinforcement Learning [4.0539039756740785]
本稿では,RMABモデルと独立カスケードモデルを統合する新しいフレームワークであるNetworked RMABを紹介する。
指数関数的に大きな作用と状態空間による計算課題を示す。
ネットワーク設定に適した効率的なQ-ラーニングアルゴリズムを開発することにより,これらの結果を実験的に検証する。
論文 参考訳(メタデータ) (2025-12-06T03:53:25Z) - Spectral Bellman Method: Unifying Representation and Exploration in RL [54.71169912483302]
この研究は、価値に基づく強化学習のための表現を学習するための新しいフレームワークであるSpectral Bellman Representationを紹介する。
ベルマン力学と特徴共分散を整合させることにより,学習した表現が構造化された探索を可能にすることを示す。
我々のフレームワークは、自然に強力なマルチステップベルマン演算子に拡張され、その影響をさらに拡大します。
論文 参考訳(メタデータ) (2025-07-17T14:50:52Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - When is Realizability Sufficient for Off-Policy Reinforcement Learning? [17.317841035807696]
我々は,所定の機能クラスに対してのみ実現可能性を持つ場合,非政治強化学習の統計的複雑さを分析する。
ベルマン誤差と呼ばれる近似誤差項を含まない非政治強化学習の有限サンプル保証を確立する。
論文 参考訳(メタデータ) (2022-11-10T03:15:31Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Continuous-Time Fitted Value Iteration for Robust Policies [93.25997466553929]
ハミルトン・ヤコビ・ベルマン方程式の解法は、制御、ロボティクス、経済学を含む多くの領域において重要である。
連続適合値反復(cFVI)とロバスト適合値反復(rFVI)を提案する。
これらのアルゴリズムは、多くの連続制御問題の非線形制御-アフィンダイナミクスと分離可能な状態とアクション報酬を利用する。
論文 参考訳(メタデータ) (2021-10-05T11:33:37Z) - Robust Value Iteration for Continuous Control Tasks [99.00362538261972]
シミュレーションから物理システムへ制御ポリシを転送する場合、そのポリシは、動作の変動に対して堅牢でなければならない。
本稿では、動的プログラミングを用いて、コンパクトな状態領域上での最適値関数を計算するRobust Fitted Value Iterationを提案する。
より深い強化学習アルゴリズムや非ロバストなアルゴリズムと比較して、ロバストな値の方が頑健であることを示す。
論文 参考訳(メタデータ) (2021-05-25T19:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。