論文の概要: Improving Controller Generalization with Dimensionless Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2504.10006v1
- Date: Mon, 14 Apr 2025 09:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 22:34:39.238339
- Title: Improving Controller Generalization with Dimensionless Markov Decision Processes
- Title(参考訳): 次元レスマルコフ決定プロセスによる制御器一般化の改善
- Authors: Valentin Charvet, Sebastian Stein, Roderick Murray-Smith,
- Abstract要約: 本研究では,世界モデルと政策の両方が無次元の状態行動空間で訓練されるような一般化を促進するためのモデルベースアプローチを提案する。
本研究では, 単一環境下で訓練されたポリシーが, コンテキスト分布の変化に対して堅牢であるような, 動作型振り子とカルポールシステムに対する本手法の適用性を実証する。
- 参考スコア(独自算出の注目度): 6.047438841182958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllers trained with Reinforcement Learning tend to be very specialized and thus generalize poorly when their testing environment differs from their training one. We propose a Model-Based approach to increase generalization where both world model and policy are trained in a dimensionless state-action space. To do so, we introduce the Dimensionless Markov Decision Process ($\Pi$-MDP): an extension of Contextual-MDPs in which state and action spaces are non-dimensionalized with the Buckingham-$\Pi$ theorem. This procedure induces policies that are equivariant with respect to changes in the context of the underlying dynamics. We provide a generic framework for this approach and apply it to a model-based policy search algorithm using Gaussian Process models. We demonstrate the applicability of our method on simulated actuated pendulum and cartpole systems, where policies trained on a single environment are robust to shifts in the distribution of the context.
- Abstract(参考訳): 強化学習でトレーニングされたコントローラは、非常に専門的で、テスト環境がトレーニング環境と異なる場合、一般化が不十分になる傾向があります。
本研究では,世界モデルと政策の両方が無次元の状態行動空間で訓練されるような一般化を促進するためのモデルベースアプローチを提案する。
そのために、状態空間と作用空間がバッキンガム-$\Pi$定理で非次元化されるような文脈的-MDPの拡張であるDmensionless Markov Decision Process(\Pi$-MDP)を導入する。
この手順は、基礎となる力学の文脈における変化に関して同値なポリシーを誘導する。
このアプローチの汎用フレームワークを提供し、ガウス過程モデルを用いたモデルベースのポリシー探索アルゴリズムに適用する。
本研究では, 単一環境下で訓練されたポリシーが, コンテキスト分布の変化に対して堅牢であるような, 動作型振り子とカルポールシステムに対する本手法の適用性を実証する。
関連論文リスト
- Learning Policy Representations for Steerable Behavior Synthesis [80.4542176039074]
マルコフ決定プロセス(MDP)を前提として,テスト時の行動ステアリングを促進するために,さまざまなポリシーの表現を学習する。
これらの表現は、セットベースアーキテクチャを用いて、様々なポリシーに対して均一に近似できることを示す。
変動生成法を用いてスムーズな潜伏空間を導出し,さらにコントラスト学習により、潜伏距離が値関数の差と一致するように形成する。
論文 参考訳(メタデータ) (2026-01-29T21:52:06Z) - Policy-Conditioned Policies for Multi-Agent Task Solving [53.67744322553693]
本研究では,ポリシーを人間の解釈可能なソースコードとして表現することでギャップを埋めるパラダイムシフトを提案する。
本研究では,Large Language Models (LLM) を近似インタプリタとして利用することにより,学習問題を再構築する。
我々はこのプロセスを,ポリシーコードをテキスト勾配で最適化するアルゴリズムである TextitProgrammatic Iterated Best Response (PIBR) として定式化する。
論文 参考訳(メタデータ) (2025-12-24T07:42:10Z) - A-LAMP: Agentic LLM-Based Framework for Automated MDP Modeling and Policy Generation [2.5705703401045548]
自動MDPモデリングとポリシー生成のためのエージェント型大規模言語モデル(LLM)ベースのフレームワークを提案する。
A-LAMPは、自由形式の自然言語タスク記述をMDPの定式化と訓練されたポリシーに変換する。
A-LAMPは、単一の最先端モデルよりも高いポリシー生成能力を一貫して達成する。
論文 参考訳(メタデータ) (2025-12-12T04:21:17Z) - Model-Based Reinforcement Learning Under Confounding [3.5690236380446163]
文脈的マルコフ決定過程 (C-MDP) におけるモデルに基づく強化学習について検討し, 文脈が観測されず, オフラインデータセットのコンバウンディングを誘導する。
本研究では,代用変数の軽度可逆条件下での観測可能な状態-反応-逆軌道のみを用いて,共起型報酬期待を識別する近位オフポリシー評価手法を適用した。
提案した定式化により,コンテキスト情報が観測できない,利用できない,収集が不可能な,統合された環境下でのモデル学習と計画が可能である。
論文 参考訳(メタデータ) (2025-12-08T13:02:00Z) - Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。
従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。
マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文 参考訳(メタデータ) (2025-05-26T03:42:20Z) - Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てている
このアルゴリズムは制約付きMDPの解法として検討されている。
論文 参考訳(メタデータ) (2024-06-17T12:46:02Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - Policy Gradient Methods in the Presence of Symmetries and State
Abstractions [46.66541516203923]
高次元および複雑な問題に対する強化学習(RL)は、効率と一般化を改善するための抽象化に依存している。
連続制御設定における抽象化を研究し、マルコフ決定過程(MDP)の準同型の定義を連続状態と作用空間の設定に拡張する。
本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムのファミリーを提案する。
論文 参考訳(メタデータ) (2023-05-09T17:59:10Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Bayesian regularization of empirical MDPs [11.3458118258705]
ベイズ的な視点を採り、マルコフ決定プロセスの目的関数を事前情報で正規化する。
提案するアルゴリズムは,大規模オンラインショッピングストアの合成シミュレーションと実世界の検索ログに基づいて評価する。
論文 参考訳(メタデータ) (2022-08-03T22:02:50Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Invariant Policy Optimization: Towards Stronger Generalization in
Reinforcement Learning [5.476958867922322]
強化学習の基本的な課題は、訓練中に経験した操作領域を超えて一般化するポリシーを学ぶことである。
本稿では,この原則を実装した新しい学習アルゴリズムである不変ポリシー最適化(IPO)を提案し,トレーニング中に不変ポリシーを学習する。
論文 参考訳(メタデータ) (2020-06-01T17:28:19Z) - Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。
本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。
モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文 参考訳(メタデータ) (2020-05-04T05:35:02Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。