論文の概要: A Unified Theory of Compositionality, Modularity, and Interpretability in Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2506.09499v1
- Date: Wed, 11 Jun 2025 08:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.737821
- Title: A Unified Theory of Compositionality, Modularity, and Interpretability in Markov Decision Processes
- Title(参考訳): マルコフ決定過程における構成性、モジュラリティ、解釈可能性の統一理論
- Authors: Thomas J. Ringstrom, Paul R. Schrater,
- Abstract要約: 我々は、新しい報酬のないマルコフ決定プロセスのためのオプションカーネルベルマン方程式(OKBE)を紹介する。
OKBEは、状態時オプションカーネル(STOK)と呼ばれる予測マップを直接構築し、最適化し、ゴールを達成する確率を最大化する。
我々は、報酬-最大化は構成性、モジュラリティ、解釈可能性の性質と矛盾していると主張する。
- 参考スコア(独自算出の注目度): 1.3044677039636754
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Option Kernel Bellman Equations (OKBEs) for a new reward-free Markov Decision Process. Rather than a value function, OKBEs directly construct and optimize a predictive map called a state-time option kernel (STOK) to maximize the probability of completing a goal while avoiding constraint violations. STOKs are compositional, modular, and interpretable initiation-to-termination transition kernels for policies in the Options Framework of Reinforcement Learning. This means: 1) STOKs can be composed using Chapman-Kolmogorov equations to make spatiotemporal predictions for multiple policies over long horizons, 2) high-dimensional STOKs can be represented and computed efficiently in a factorized and reconfigurable form, and 3) STOKs record the probabilities of semantically interpretable goal-success and constraint-violation events, needed for formal verification. Given a high-dimensional state-transition model for an intractable planning problem, we can decompose it with local STOKs and goal-conditioned policies that are aggregated into a factorized goal kernel, making it possible to forward-plan at the level of goals in high-dimensions to solve the problem. These properties lead to highly flexible agents that can rapidly synthesize meta-policies, reuse planning representations across many tasks, and justify goals using empowerment, an intrinsic motivation function. We argue that reward-maximization is in conflict with the properties of compositionality, modularity, and interpretability. Alternatively, OKBEs facilitate these properties to support verifiable long-horizon planning and intrinsic motivation that scales to dynamic high-dimensional world-models.
- Abstract(参考訳): 我々は、新しい報酬のないマルコフ決定プロセスのためのオプションカーネルベルマン方程式(OKBE)を紹介する。
値関数ではなく、OKBEは状態時オプションカーネル(STOK)と呼ばれる予測マップを直接構築し最適化し、制約違反を避けながらゴールを達成できる確率を最大化する。
STOKは、強化学習のオプションフレームワークにおけるポリシーのための、構成的、モジュール的、解釈可能な開始から終了までの遷移カーネルである。
これが意味する。
1) STOKはチャップマン・コルモゴロフ方程式を用いて、長い地平線上の複数のポリシーに対する時空間予測を行うことができる。
2)高次元STOKを因子化・再構成可能な形で効率よく表現・計算することができる。
3)STOKは,形式的検証に必要な,意味論的に解釈可能な目標・成功と制約違反事象の確率を記録する。
難解な計画問題に対する高次元状態遷移モデルを考えると、局所的なSTOKと、因子化されたゴールカーネルに集約された目標条件のポリシーを分解し、高次元の目標レベルを前方計画して問題を解決することができる。
これらの性質は、メタ政治を迅速に合成し、多くのタスクで計画表現を再利用し、本質的なモチベーション関数であるエンパワーメントを使って目標を正当化する、非常に柔軟なエージェントをもたらす。
我々は、報酬-最大化は構成性、モジュラリティ、解釈可能性の性質と矛盾していると主張する。
あるいは、OKBEはこれらの特性を促進して、動的高次元世界モデルにスケールする検証可能な長期計画と本質的なモチベーションをサポートする。
関連論文リスト
- Decomposability-Guaranteed Cooperative Coevolution for Large-Scale Itinerary Planning [6.565536870180592]
大規模反復計画は、旅行セールスマン問題の変種である。
本稿では,大規模反復計画の分解可能性について分析する。
本稿では,大規模反復計画のための新しい多目的協調進化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-06T14:31:57Z) - Reinforced Reasoning for Embodied Planning [18.40186665383579]
身体的計画では、エージェントは動的視覚観察と自然言語の目標に基づいて、一貫性のある多段階決定を行う必要がある。
具体的計画にR1スタイルの推論強化をもたらす強化微調整フレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-28T07:21:37Z) - Unlocking Reasoning Potential in Large Langauge Models by Scaling Code-form Planning [94.76546523689113]
CodePlanは、テキストコード形式の計画を生成し、追跡するフレームワークで、高いレベルの構造化された推論プロセスの概要を擬似コードで示します。
CodePlanは、洗練された推論タスク固有のリッチなセマンティクスと制御フローを効果的にキャプチャする。
反応を直接生成するのに比べて25.1%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2024-09-19T04:13:58Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Opportunistic Qualitative Planning in Stochastic Systems with Incomplete
Preferences over Reachability Objectives [24.11353445650682]
優先順位は、すべての制約が同時に満たされない場合に、どの目標/制約を満たすかを決定する上で重要な役割を果たします。
本稿では,SPIおよびSASI戦略を合成し,複数の逐次改善を実現するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-04T19:53:08Z) - Modular Deep Reinforcement Learning for Continuous Motion Planning with
Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。
LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。
モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文 参考訳(メタデータ) (2021-02-24T01:11:25Z) - Formal Controller Synthesis for Continuous-Space MDPs via Model-Free
Reinforcement Learning [1.0928470926399565]
連続空間マルコフ決定プロセス(MDP)のポリシーを合成する新しい強化学習手法を提案する。
この論文の重要な貢献は、有限のMDP上での強化学習に古典的な収束結果を活用することである。
本稿では,学習を高速化するために,新たな報酬形成手法を提案する。
論文 参考訳(メタデータ) (2020-03-02T08:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。