Fugu-MT 論文翻訳(概要): Improving Controller Generalization with Dimensionless Markov Decision Processes

論文の概要: Improving Controller Generalization with Dimensionless Markov Decision Processes

arxiv url: http://arxiv.org/abs/2504.10006v1
Date: Mon, 14 Apr 2025 09:08:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-22 22:34:39.238339
Title: Improving Controller Generalization with Dimensionless Markov Decision Processes
Title（参考訳）: 次元レスマルコフ決定プロセスによる制御器一般化の改善
Authors: Valentin Charvet, Sebastian Stein, Roderick Murray-Smith,
Abstract要約: 本研究では,世界モデルと政策の両方が無次元の状態行動空間で訓練されるような一般化を促進するためのモデルベースアプローチを提案する。本研究では, 単一環境下で訓練されたポリシーが, コンテキスト分布の変化に対して堅牢であるような, 動作型振り子とカルポールシステムに対する本手法の適用性を実証する。
参考スコア（独自算出の注目度）: 6.047438841182958
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Controllers trained with Reinforcement Learning tend to be very specialized and thus generalize poorly when their testing environment differs from their training one. We propose a Model-Based approach to increase generalization where both world model and policy are trained in a dimensionless state-action space. To do so, we introduce the Dimensionless Markov Decision Process ($\Pi$-MDP): an extension of Contextual-MDPs in which state and action spaces are non-dimensionalized with the Buckingham-$\Pi$ theorem. This procedure induces policies that are equivariant with respect to changes in the context of the underlying dynamics. We provide a generic framework for this approach and apply it to a model-based policy search algorithm using Gaussian Process models. We demonstrate the applicability of our method on simulated actuated pendulum and cartpole systems, where policies trained on a single environment are robust to shifts in the distribution of the context.
Abstract（参考訳）: 強化学習でトレーニングされたコントローラは、非常に専門的で、テスト環境がトレーニング環境と異なる場合、一般化が不十分になる傾向があります。本研究では,世界モデルと政策の両方が無次元の状態行動空間で訓練されるような一般化を促進するためのモデルベースアプローチを提案する。そのために、状態空間と作用空間がバッキンガム-$\Pi$定理で非次元化されるような文脈的-MDPの拡張であるDmensionless Markov Decision Process(\Pi$-MDP)を導入する。この手順は、基礎となる力学の文脈における変化に関して同値なポリシーを誘導する。このアプローチの汎用フレームワークを提供し、ガウス過程モデルを用いたモデルベースのポリシー探索アルゴリズムに適用する。本研究では, 単一環境下で訓練されたポリシーが, コンテキスト分布の変化に対して堅牢であるような, 動作型振り子とカルポールシステムに対する本手法の適用性を実証する。

関連論文リスト

Decision Flow Policy Optimization [53.825268058199825]
生成モデルは、複雑なマルチモーダルな動作分布を効果的にモデル化し、連続的な動作空間において優れたロボット制御を実現することができることを示す。従来の手法は通常、データセットからの状態条件付きアクション分布に適合する振る舞いモデルとして生成モデルを採用する。マルチモーダルな行動分布モデリングとポリシー最適化を統合した統合フレームワークDecision Flowを提案する。
論文参考訳（メタデータ） (2025-05-26T03:42:20Z)
Constrained Reinforcement Learning with Average Reward Objective: Model-Based and Model-Free Algorithms [34.593772931446125]
モノグラフは、平均報酬決定過程(MDPs)の文脈内で制約された様々なモデルベースおよびモデルフリーアプローチの探索に焦点を当てているこのアルゴリズムは制約付きMDPの解法として検討されている。
論文参考訳（メタデータ） (2024-06-17T12:46:02Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
Policy Gradient Methods in the Presence of Symmetries and State Abstractions [46.66541516203923]
高次元および複雑な問題に対する強化学習(RL)は、効率と一般化を改善するための抽象化に依存している。連続制御設定における抽象化を研究し、マルコフ決定過程(MDP)の準同型の定義を連続状態と作用空間の設定に拡張する。本稿では,政策とMDP準同型写像を同時に学習できるアクター批判アルゴリズムのファミリーを提案する。
論文参考訳（メタデータ） (2023-05-09T17:59:10Z)
Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文参考訳（メタデータ） (2022-09-15T07:22:58Z)
Bayesian regularization of empirical MDPs [11.3458118258705]
ベイズ的な視点を採り、マルコフ決定プロセスの目的関数を事前情報で正規化する。提案するアルゴリズムは,大規模オンラインショッピングストアの合成シミュレーションと実世界の検索ログに基づいて評価する。
論文参考訳（メタデータ） (2022-08-03T22:02:50Z)
Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文参考訳（メタデータ） (2020-12-30T03:22:35Z)
Invariant Policy Optimization: Towards Stronger Generalization in Reinforcement Learning [5.476958867922322]
強化学習の基本的な課題は、訓練中に経験した操作領域を超えて一般化するポリシーを学ぶことである。本稿では,この原則を実装した新しい学習アルゴリズムである不変ポリシー最適化(IPO)を提案し,トレーニング中に不変ポリシーを学習する。
論文参考訳（メタデータ） (2020-06-01T17:28:19Z)
Localized active learning of Gaussian process state space models [63.97366815968177]
多くの共通制御アプリケーションにおいて、優れた性能を達成するためには、グローバルに正確なモデルを必要としない。本稿では,状態-作用空間の有界部分集合上の正確なモデルを得ることを目的としたガウス過程状態空間モデルに対する能動的学習戦略を提案する。モデル予測制御を用いることで、探索中に収集した情報を統合し、探索戦略を適応的に改善する。
論文参考訳（メタデータ） (2020-05-04T05:35:02Z)
Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文参考訳（メタデータ） (2020-03-12T21:03:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。