論文の概要: Hybrid Cross-domain Robust Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.23003v1
- Date: Thu, 29 May 2025 02:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.624996
- Title: Hybrid Cross-domain Robust Reinforcement Learning
- Title(参考訳): ハイブリッドクロスドメインロバスト強化学習
- Authors: Linh Le Pham Van, Minh Hoang Nguyen, Hung Le, Hung The Tran, Sunil Gupta,
- Abstract要約: ロバスト強化学習(RL)は、環境に不確実性があるにもかかわらず効果的な政策を学ぶことを目的としている。
本稿では,Hybrid Cross-Domain Robust RLフレームワークであるHYDROを紹介する。
不確実性セットにおけるシミュレータと最悪のモデルのパフォーマンスギャップを計測し、最小化することにより、HYDROは、新しい不確実性フィルタリングと優先順位付けサンプリングを採用し、最も重要で信頼性の高いシミュレータサンプルを選択する。
- 参考スコア(独自算出の注目度): 26.850955692805186
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Robust reinforcement learning (RL) aims to learn policies that remain effective despite uncertainties in its environment, which frequently arise in real-world applications due to variations in environment dynamics. The robust RL methods learn a robust policy by maximizing value under the worst-case models within a predefined uncertainty set. Offline robust RL algorithms are particularly promising in scenarios where only a fixed dataset is available and new data cannot be collected. However, these approaches often require extensive offline data, and gathering such datasets for specific tasks in specific environments can be both costly and time-consuming. Using an imperfect simulator offers a faster, cheaper, and safer way to collect data for training, but it can suffer from dynamics mismatch. In this paper, we introduce HYDRO, the first Hybrid Cross-Domain Robust RL framework designed to address these challenges. HYDRO utilizes an online simulator to complement the limited amount of offline datasets in the non-trivial context of robust RL. By measuring and minimizing performance gaps between the simulator and the worst-case models in the uncertainty set, HYDRO employs novel uncertainty filtering and prioritized sampling to select the most relevant and reliable simulator samples. Our extensive experiments demonstrate HYDRO's superior performance over existing methods across various tasks, underscoring its potential to improve sample efficiency in offline robust RL.
- Abstract(参考訳): ロバスト強化学習(RL)は、環境力学の変動により現実の応用においてしばしば発生する環境の不確実性にもかかわらず、効果的な政策を学習することを目的としている。
ロバストなRL法は、事前定義された不確実性集合内の最悪のケースモデルの下で値を最大化することで、ロバストなポリシーを学ぶ。
オフラインの堅牢なRLアルゴリズムは、固定データセットのみが利用可能で、新しいデータが収集できないシナリオで特に有望である。
しかし、これらのアプローチは大規模なオフラインデータを必要とすることが多く、特定の環境における特定のタスクのためのデータセットの収集にはコストと時間を要する可能性がある。
不完全なシミュレータを使用することで、トレーニング用のデータをより速く、より安く、より安全に収集することができるが、動的ミスマッチに悩まされる可能性がある。
本稿では,Hybrid Cross-Domain Robust RLフレームワークであるHYDROを紹介する。
HYDROはオンラインシミュレータを使用して、ロバストなRLの非自明なコンテキストにおいて、限られたオフラインデータセット量を補完する。
不確実性セットにおけるシミュレータと最悪のモデルのパフォーマンスギャップを計測し、最小化することにより、HYDROは、新しい不確実性フィルタリングと優先順位付けサンプリングを採用し、最も重要で信頼性の高いシミュレータサンプルを選択する。
大規模な実験により,HyDROは様々なタスクにまたがる既存手法よりも優れた性能を示し,オフラインロバストRLにおける試料効率向上の可能性を示している。
関連論文リスト
- SimpleDeepSearcher: Deep Information Seeking via Web-Powered Reasoning Trajectory Synthesis [89.99161034065614]
Retrieval-augmented Generation (RAG) システムは複雑なディープ検索シナリオにおいて高度な大規模言語モデル(LLM)を持つ。
既存のアプローチでは、高品質なトレーニングトラジェクトリが欠如し、分散ミスマッチに苦しむ、重要な制限に直面しています。
本稿では,複雑なトレーニングパラダイムではなく,戦略的データエンジニアリングによるギャップを埋めるフレームワークであるSimpleDeepSearcherを紹介する。
論文 参考訳(メタデータ) (2025-05-22T16:05:02Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Improving Offline Reinforcement Learning with Inaccurate Simulators [34.54402525918925]
オフラインデータセットと不正確なシミュレーションデータをよりうまく組み合わせる新しい手法を提案する。
具体的には、オフラインデータセットの状態分布に合わせるために、GAN(Generative Adversarial Network)モデルを事前訓練する。
D4RLベンチマークと実世界の操作タスクによる実験結果から,提案手法は不正確なシミュレータと限定されたオフラインデータセットにより,最先端の手法よりも優れた性能を実現することができることを確認した。
論文 参考訳(メタデータ) (2024-05-07T13:29:41Z) - Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithm [14.517103323409307]
Sim-to-realのギャップは、トレーニングとテスト環境の相違を表している。
この課題に対処するための有望なアプローチは、分布的に堅牢なRLである。
我々は対話型データ収集によるロバストなRLに取り組み、証明可能なサンプル複雑性を保証するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-04T16:40:22Z) - Environment Transformer and Policy Optimization for Model-Based Offline
Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。
遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文 参考訳(メタデータ) (2023-03-07T11:26:09Z) - Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-08-10T03:47:45Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。