論文の概要: Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.09427v1
- Date: Tue, 10 Mar 2026 09:41:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.211792
- Title: Impact of Markov Decision Process Design on Sim-to-Real Reinforcement Learning
- Title(参考訳): Sim-to-Real Reinforcement Learning におけるマルコフ決定プロセス設計の影響
- Authors: Tatjana Krau, Jorge Mandlmaier, Tobias Damm, Frieder Heieck,
- Abstract要約: この研究は、コアマルコフ決定プロセス(MDP)の設計選択がこの伝達にどのように影響するかを体系的に分析する。
カラーミキシングタスクを用いて,様々なMDP構成を評価し,シミュレーションや実世界の実験で動的に混合する。
物理ハードウェアに関する我々の知見を検証し、物理に基づく力学モデルが50%以上の実世界の成功を達成できることを実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reinforcement Learning (RL) has demonstrated strong potential for industrial process control, yet policies trained in simulation often suffer from a significant sim-to-real gap when deployed on physical hardware. This work systematically analyzes how core Markov Decision Process (MDP) design choices -- state composition, target inclusion, reward formulation, termination criteria, and environment dynamics models -- affect this transfer. Using a color mixing task, we evaluate different MDP configurations and mixing dynamics across simulation and real-world experiments. We validate our findings on physical hardware, demonstrating that physics-based dynamics models achieve up to 50% real-world success under strict precision constraints where simplified models fail entirely. Our results provide practical MDP design guidelines for deploying RL in industrial process control.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、産業的なプロセス制御に強い可能性を示しているが、シミュレーションで訓練されたポリシーは、物理ハードウェアにデプロイする際、大きなシミュレートと現実のギャップに悩まされることが多い。
この研究は、Markov Decision Process(MDP)のコア設計選択 – 状態構成、ターゲット包摂性、報酬の定式化、終了基準、環境力学モデル – がいかにしてこの移行に影響するかを体系的に分析する。
カラーミキシングタスクを用いて,様々なMDP構成を評価し,シミュレーションや実世界の実験で動的に混合する。
物理ハードウェアに関する我々の知見を検証し、単純化されたモデルが完全に失敗する厳密な精度の制約の下で、物理に基づく力学モデルが50%以上の実世界の成功を達成できることを実証した。
本研究は,産業プロセス制御におけるRLの展開のための実用的MDP設計ガイドラインを提供する。
関連論文リスト
- Do-Undo: Generating and Reversing Physical Actions in Vision-Language Models [57.71440995598757]
我々は,視覚言語モデルにおける重要なギャップに対処するために,Do-Undoタスクとベンチマークを導入する。
Do-Undoは、物理的な行動の結果をシミュレートし、それを正確に反転させるモデルを必要とし、視覚の世界における真の原因と効果を反映している。
論文 参考訳(メタデータ) (2025-12-15T18:03:42Z) - Analyzing Planner Design Trade-offs for MAPF under Realistic Simulation [8.088161779831582]
現実的な実行環境下でのプランナー設計選択がパフォーマンスに与える影響について検討する。
私たちは、実践的で現実的なデプロイメントに向けてコミュニティを舵取りするためのオープンな課題と研究の方向性を強調します。
論文 参考訳(メタデータ) (2025-12-10T15:15:26Z) - LLMs for Analog Circuit Design Continuum (ACDC) [10.15990970510281]
大きな言語モデル(LLM)とトランスフォーマーアーキテクチャは印象的な推論と生成能力を示している。
この研究は、人間がループに留まるAI支援設計に焦点を当てている。
この結果から,データフォーマットに対する感度,生成した設計の不安定性,未確認回路構成への一般化の制限など,重要な信頼性上の課題が浮き彫りになった。
論文 参考訳(メタデータ) (2025-12-09T23:57:28Z) - Revealing the Challenges of Sim-to-Real Transfer in Model-Based Reinforcement Learning via Latent Space Modeling [31.74241286023207]
強化学習(RL)は、ロボット制御や自律運転といった分野において、ますます重要な役割を担っている。
シミュレーションと実環境のギャップは、RLの実践的な展開にとって大きな障害となっている。
本稿では,シミュレーションが現実の政策改善に与える影響を分析するために,潜在空間に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-15T06:02:42Z) - Re4MPC: Reactive Nonlinear MPC for Multi-model Motion Planning via Deep Reinforcement Learning [0.94371657253557]
本稿では,Re4MPCと呼ばれる新しいマルチモデル動作計画パイプラインを提案する。
モデル予測制御(Model Predictive Control)を使用して、エンドエフェクタ目標を達成するための軌道を計算する。
我々は,Re4MPCの方が計算効率が高く,NMPCベースラインよりも高い成功率が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T01:58:32Z) - GausSim: Foreseeing Reality by Gaussian Simulator for Elastic Objects [55.02281855589641]
GausSimは、ガウスカーネルを通して表現される現実の弾性物体の動的挙動をキャプチャするために設計された、ニューラルネットワークベースの新しいシミュレータである。
我々は連続体力学を活用し、各カーネルを連続体を表すCenter of Mass System (CMS)として扱う。
さらに、ガウスシムは質量や運動量保存のような明示的な物理制約を取り入れ、解釈可能な結果と堅牢で物理的に妥当なシミュレーションを確実にする。
論文 参考訳(メタデータ) (2024-12-23T18:58:17Z) - HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。
本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文 参考訳(メタデータ) (2023-09-30T11:38:13Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - DevFormer: A Symmetric Transformer for Context-Aware Device Placement [12.400790776196667]
本稿では,ハードウェア設計最適化の複雑で計算に要求される問題に対処するトランスフォーマーベースのアーキテクチャであるDevFormerを提案する。
提案手法は, 相対的な位置埋め込みや行動置換対称性などの強い帰納バイアスを導入することで, この制限に対処する。
DevFoemerは、両方のシミュレーションハードウェアで最先端の手法よりも優れており、性能が向上し、コンポーネントの数を30ドル以上削減できることを示す。
論文 参考訳(メタデータ) (2022-05-26T08:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。