論文の概要: Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts
- arxiv url: http://arxiv.org/abs/2512.02486v1
- Date: Tue, 02 Dec 2025 07:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.765068
- Title: Dual-Robust Cross-Domain Offline Reinforcement Learning Against Dynamics Shifts
- Title(参考訳): ダイナミクスシフトに対するデュアル・ロバスト・クロスドメインオフライン強化学習
- Authors: Zhongjian Qiao, Rui Yang, Jiafei Lyu, Xiu Li, Zhongxiang Dai, Zhuoran Yang, Siyang Gao, Shuang Qiu,
- Abstract要約: 単一ドメインのオフライン強化学習(RL)は、しばしば限られたデータカバレッジに悩まされる。
ドメイン間のオフラインRLは、動的シフトを伴う他のドメインからの追加データを活用することでこの問題に対処する。
本稿では、クロスドメインオフラインRLにおける動的シフトに対する二重(列車時間とテスト時間の両方)ロバスト性について検討する。
- 参考スコア(独自算出の注目度): 68.18666621908898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single-domain offline reinforcement learning (RL) often suffers from limited data coverage, while cross-domain offline RL handles this issue by leveraging additional data from other domains with dynamics shifts. However, existing studies primarily focus on train-time robustness (handling dynamics shifts from training data), neglecting the test-time robustness against dynamics perturbations when deployed in practical scenarios. In this paper, we investigate dual (both train-time and test-time) robustness against dynamics shifts in cross-domain offline RL. We first empirically show that the policy trained with cross-domain offline RL exhibits fragility under dynamics perturbations during evaluation, particularly when target domain data is limited. To address this, we introduce a novel robust cross-domain Bellman (RCB) operator, which enhances test-time robustness against dynamics perturbations while staying conservative to the out-of-distribution dynamics transitions, thus guaranteeing the train-time robustness. To further counteract potential value overestimation or underestimation caused by the RCB operator, we introduce two techniques, the dynamic value penalty and the Huber loss, into our framework, resulting in the practical \textbf{D}ual-\textbf{RO}bust \textbf{C}ross-domain \textbf{O}ffline RL (DROCO) algorithm. Extensive empirical results across various dynamics shift scenarios show that DROCO outperforms strong baselines and exhibits enhanced robustness to dynamics perturbations.
- Abstract(参考訳): 単一ドメインのオフライン強化学習(RL)は、限られたデータカバレッジに悩まされることが多いが、クロスドメインのオフラインRLは、動的シフトを伴う他のドメインからの追加データを活用することでこの問題に対処する。
しかし、既存の研究は主に列車時の堅牢性(トレーニングデータからのダイナミクスのシフトを処理すること)に焦点を当てており、実際のシナリオにデプロイした場合の動的摂動に対するテスト時の堅牢性を無視している。
本稿では、クロスドメインオフラインRLにおける動的シフトに対する二重(列車時間とテスト時間の両方)ロバスト性について検討する。
最初に、クロスドメインオフラインRLでトレーニングされたポリシーは、特にターゲットドメインデータが制限された場合、評価中に動的摂動の下で脆弱性を示すことを実証的に示す。
そこで,本稿では,非分布な動的遷移を保ちながら,動的摂動に対するテスト時間ロバスト性を向上し,列車時のロバスト性を保証する,新しいロバストなクロスドメイン・ベルマン(RCB)演算子を提案する。
RCB演算子によるポテンシャル値過大評価や過小評価のさらなる対策として、動的値ペナルティとハマー損失という2つの手法を我々のフレームワークに導入し、実用的な \textbf{D}ual-\textbf{RO}bust \textbf{C}ross- domain \textbf{O}ffline RL (DROCO) アルゴリズムを実現する。
様々な動力学的シフトシナリオの広範な実験結果から、DROCOは強いベースラインより優れ、動力学的摂動に対する強靭性を示すことが示されている。
関連論文リスト
- Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting [91.38734024438357]
Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の能力の強化と振る舞いの整合化のための訓練後パラダイムである。
SFTとRLを統合する既存のアプローチは、確立された応答パターンを乱し、専門家データに過度に適合するリスクに直面することが多い。
動的重み付けによるオン・アンド・オフ・ポリティクス強化学習の制御可能な調和のためのフレームワークであるCHORDを提案する。
論文 参考訳(メタデータ) (2025-08-15T11:20:03Z) - Dynamic Reinforcement Learning for Actors [0.0]
動的強化学習(Dynamic RL)は、アクター(アクション生成ニューラルネットワーク)出力の代わりに、システムダイナミクスを直接制御する。
Actorは当初、その環境とループを通してカオス力学を生成するように設計されている。
動的RLは「感度」と呼ばれる局所指数を用いてグローバルシステムダイナミクスを制御する
論文 参考訳(メタデータ) (2025-02-14T14:50:05Z) - Improve Robustness of Reinforcement Learning against Observation
Perturbations via $l_\infty$ Lipschitz Policy Networks [8.39061976254379]
深層強化学習(DRL)は、シーケンシャルな意思決定タスクにおいて顕著な進歩を遂げた。
近年の研究では、DRL剤は観測のわずかな摂動に影響を受けやすいことが判明している。
本稿では、観測摂動に対するDRLポリシーの堅牢性を改善するため、SrtRLと呼ばれる新しい頑健な強化学習法を提案する。
論文 参考訳(メタデータ) (2023-12-14T08:57:22Z) - Two-step dynamic obstacle avoidance [0.0]
本稿では、教師付きおよび強化学習(RL)を組み合わせることにより、動的障害物回避(DOA)タスクを扱うための2段階アーキテクチャを提案する。
最初のステップでは、リカレントニューラルネットワークを用いて障害物の衝突リスク(CR)を推定するデータ駆動アプローチを導入する。
第2ステップでは、これらのCR推定値をRLエージェントの観察空間に含め、その状況意識を高める。
論文 参考訳(メタデータ) (2023-11-28T14:55:50Z) - Investigating the Edge of Stability Phenomenon in Reinforcement Learning [20.631461205889487]
強化学習(RL)における安定性現象の端点を探る
教師付き学習との大きな違いにもかかわらず、安定性現象の端は、非政治的な深いRLに存在している。
この結果から,ニューラルネットワーク構造は問題領域間の移動を最適化するダイナミクスをもたらす可能性があるが,深いRL最適化の特定の側面は,教師付き学習のような領域と区別できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-09T15:46:27Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Causal Inference Q-Network: Toward Resilient Reinforcement Learning [57.96312207429202]
観測干渉を有する弾力性のあるDRLフレームワークを検討する。
本稿では、因果推論Q-network (CIQ) と呼ばれる因果推論に基づくDRLアルゴリズムを提案する。
実験の結果,提案手法は観測干渉に対して高い性能と高反発性を実現することができた。
論文 参考訳(メタデータ) (2021-02-18T23:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。