Fugu-MT 論文翻訳(概要): ODRL: A Benchmark for Off-Dynamics Reinforcement Learning

論文の概要: ODRL: A Benchmark for Off-Dynamics Reinforcement Learning

arxiv url: http://arxiv.org/abs/2410.20750v1
Date: Mon, 28 Oct 2024 05:29:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.163937
Title: ODRL: A Benchmark for Off-Dynamics Reinforcement Learning
Title（参考訳）: ODRL: オフダイナミック強化学習のためのベンチマーク
Authors: Jiafei Lyu, Kang Xu, Jiacheng Xu, Mengbei Yan, Jingwen Yang, Zongzhang Zhang, Chenjia Bai, Zongqing Lu, Xiu Li,
Abstract要約: 我々は、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。 ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインまたはオフラインにすることができる。我々は、様々な力学シフトにまたがる普遍的な優位性を持つ手法が存在しないことを示す広範なベンチマーク実験を行った。
参考スコア（独自算出の注目度）: 59.72217833812439
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We consider off-dynamics reinforcement learning (RL) where one needs to transfer policies across different domains with dynamics mismatch. Despite the focus on developing dynamics-aware algorithms, this field is hindered due to the lack of a standard benchmark. To bridge this gap, we introduce ODRL, the first benchmark tailored for evaluating off-dynamics RL methods. ODRL contains four experimental settings where the source and target domains can be either online or offline, and provides diverse tasks and a broad spectrum of dynamics shifts, making it a reliable platform to comprehensively evaluate the agent's adaptation ability to the target domain. Furthermore, ODRL includes recent off-dynamics RL algorithms in a unified framework and introduces some extra baselines for different settings, all implemented in a single-file manner. To unpack the true adaptation capability of existing methods, we conduct extensive benchmarking experiments, which show that no method has universal advantages across varied dynamics shifts. We hope this benchmark can serve as a cornerstone for future research endeavors. Our code is publicly available at https://github.com/OffDynamicsRL/off-dynamics-rl.
Abstract（参考訳）: 我々は、動的ミスマッチで異なるドメイン間でポリシーを転送する必要があるオフダイナミックス強化学習(RL)について考察する。動的認識アルゴリズムの開発に重点を置いているにもかかわらず、標準ベンチマークが欠如しているため、この分野は妨げられている。このギャップを埋めるために、オフダイナミックスRL法を評価するための最初のベンチマークであるODRLを紹介する。 ODRLには、4つの実験的な設定が含まれており、ソースドメインとターゲットドメインはオンラインでもオフラインでも使用でき、多様なタスクと幅広いダイナミックスシフトを提供し、エージェントのターゲットドメインへの適応能力を総合的に評価する信頼性の高いプラットフォームとなっている。さらに、ODRLは最近のオフダイナミックスRLアルゴリズムを統一されたフレームワークに含めており、異なる設定に対する追加のベースラインを導入している。既存の手法の真の適応能力を解き放つため、我々は広範囲なベンチマーク実験を行い、様々な力学シフトに対して普遍的な優位性を持つ手法は存在しないことを示した。このベンチマークが将来の研究の基盤になることを期待している。私たちのコードはhttps://github.com/OffDynamicsRL/off-dynamics-rlで公開されています。

関連論文リスト

RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
Stealing That Free Lunch: Exposing the Limits of Dyna-Style Reinforcement Learning [10.117626902557927]
Dyna-style off-policy model-based reinforcement learning (DMBRL)アルゴリズムは、合成状態遷移データを生成するための一連の技術である。本稿では,異なるベンチマーク環境におけるDMBRLアルゴリズムの適用時に観測された驚くべき性能差を同定し,検討する。
論文参考訳（メタデータ） (2024-12-18T20:25:04Z)
Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文参考訳（メタデータ） (2022-09-24T14:22:29Z)
Dynamic Channel Access via Meta-Reinforcement Learning [0.8223798883838329]
モデル非依存型メタラーニング(MAML)の手法を取り入れたメタDRLフレームワークを提案する。同じ分布から引き出された異なるタスクに適応するためには、勾配降下がわずかに必要であることが示される。
論文参考訳（メタデータ） (2021-12-24T15:04:43Z)
Behavioral Priors and Dynamics Models: Improving Performance and Domain Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。 MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文参考訳（メタデータ） (2021-06-16T20:48:49Z)
Pareto Deterministic Policy Gradients and Its Application in 5G Massive MIMO Networks [32.099949375036495]
我々は,強化学習(RL)アプローチを用いて,セルロードバランスとネットワークスループットを協調的に最適化することを検討する。 RLの背景にある理論的根拠は、ユーザモビリティとネットワークのダイナミクスを解析的にモデル化することの難しさを回避することである。この共同最適化を実現するために、ベクトル報酬をRL値ネットワークに統合し、別々のポリシーネットワークを介してRLアクションを実行する。
論文参考訳（メタデータ） (2020-12-02T15:35:35Z)
Trajectory-wise Multiple Choice Learning for Dynamics Generalization in Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文参考訳（メタデータ） (2020-10-26T03:20:42Z)
FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文参考訳（メタデータ） (2020-10-02T17:13:39Z)
RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。 RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文参考訳（メタデータ） (2020-06-24T17:14:51Z)
Robust Reinforcement Learning via Adversarial training with Langevin Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-14T14:59:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。