論文の概要: A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models
- arxiv url: http://arxiv.org/abs/2502.13187v1
- Date: Tue, 18 Feb 2025 12:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 14:00:48.052844
- Title: A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models
- Title(参考訳): RLにおけるSim-to-Real手法に関する調査--基礎モデルによる進展・展望・課題
- Authors: Longchao Da, Justin Turnau, Thirulogasankar Pranav Kutralingam, Alvaro Velasquez, Paulo Shakarian, Hua Wei,
- Abstract要約: Deep Reinforcement Learning (RL) は意思決定タスクの解決に有効であることが検討され、検証されている。
しかし, 実世界のデータに制限があり, 有害な行動が生じたため, RLポリシーの学習は主にシミュレータ内で制限される。
本論文はマルコフ決定過程の重要な要素からシム・トゥ・リアルの技法を正式に定式化した最初の分類法である。
- 参考スコア(独自算出の注目度): 7.936554266939555
- License:
- Abstract: Deep Reinforcement Learning (RL) has been explored and verified to be effective in solving decision-making tasks in various domains, such as robotics, transportation, recommender systems, etc. It learns from the interaction with environments and updates the policy using the collected experience. However, due to the limited real-world data and unbearable consequences of taking detrimental actions, the learning of RL policy is mainly restricted within the simulators. This practice guarantees safety in learning but introduces an inevitable sim-to-real gap in terms of deployment, thus causing degraded performance and risks in execution. There are attempts to solve the sim-to-real problems from different domains with various techniques, especially in the era with emerging techniques such as large foundations or language models that have cast light on the sim-to-real. This survey paper, to the best of our knowledge, is the first taxonomy that formally frames the sim-to-real techniques from key elements of the Markov Decision Process (State, Action, Transition, and Reward). Based on the framework, we cover comprehensive literature from the classic to the most advanced methods including the sim-to-real techniques empowered by foundation models, and we also discuss the specialties that are worth attention in different domains of sim-to-real problems. Then we summarize the formal evaluation process of sim-to-real performance with accessible code or benchmarks. The challenges and opportunities are also presented to encourage future exploration of this direction. We are actively maintaining a to include the most up-to-date sim-to-real research outcomes to help the researchers in their work.
- Abstract(参考訳): 深層強化学習(Deep Reinforcement Learning, RL)は, ロボット工学, 輸送学, 推薦システムなど, さまざまな領域における意思決定課題の解決に有効であることが検討され, 検証されている。
環境とのインタラクションから学び、収集されたエクスペリエンスを使用してポリシーを更新します。
しかし, 実世界のデータに制限があり, 有害な行動が生じたため, RLポリシーの学習は主にシミュレータ内で制限される。
このプラクティスは、学習の安全性を保証するが、デプロイの観点からは必然的にsim-to-realギャップを導入し、パフォーマンスの低下と実行のリスクを引き起こす。
様々な技法で様々なドメインからシム・トゥ・リアルの問題を解決する試みがあり、特にシム・トゥ・リアルに光を当てた大きな基礎や言語モデルのような新しい技術が出現した時代においてである。
この調査論文は、我々の知る限り、マルコフ決定プロセス(状態、行動、遷移、後退)の重要な要素からシム・トゥ・リアルのテクニックを正式に定式化した最初の分類である。
この枠組みに基づき,基礎モデルによって付与されるシム・トゥ・リアル技術を含む古典的手法から最も先進的な手法までの包括的文献を網羅し,シム・トゥ・リアル問題の異なる領域において注目に値する特質についても論じる。
次に、アクセス可能なコードやベンチマークを用いて、sim-to-realパフォーマンスの形式的評価プロセスを要約する。
この方向の今後の探索を促進するために、課題と機会も提示される。
私たちは、研究者の作業を支援するために、最新のsim-to-real研究成果を含むように積極的に維持しています。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - Sim2real for Reinforcement Learning Driven Next Generation Networks [4.29590751118341]
Reinforcement Learning (RL) モデルは、RAN関連多目的最適化問題の解決の鍵と見なされている。
主な理由の1つはシミュレーションと実環境の間のモデリングギャップであり、RLエージェントは実環境に不適合なシミュレーションによって訓練される可能性がある。
この記事では、Open RAN(O-RAN)のコンテキストにおけるsim2realチャレンジについて述べます。
実環境におけるシミュレーション訓練されたRLモデルの障害モードを実証し、実証するために、いくつかのユースケースが提示される。
論文 参考訳(メタデータ) (2022-06-08T12:40:24Z) - Robust Learning from Observation with Model Misspecification [33.92371002674386]
イミテーションラーニング(Imitation Learning, IL)は、ロボットシステムにおけるトレーニングポリシーの一般的なパラダイムである。
我々は,微調整をせずに実環境に効果的に移行できるポリシーを学習するための堅牢なILアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-12T07:04:06Z) - A User's Guide to Calibrating Robotics Simulators [54.85241102329546]
本稿では,シミュレーションで学習したモデルやポリシーを現実世界に伝達することを目的とした,様々なアルゴリズムの研究のためのベンチマークとフレームワークを提案する。
我々は、様々なアルゴリズムの性能に関する洞察を特徴付け、提供するために、広く知られたシミュレーション環境の実験を行う。
我々の分析は、この分野の実践者にとって有用であり、sim-to-realアルゴリズムの動作と主特性について、より深い選択をすることができる。
論文 参考訳(メタデータ) (2020-11-17T22:24:26Z) - Sim-to-Real Transfer in Deep Reinforcement Learning for Robotics: a
Survey [0.07366405857677225]
深層強化学習におけるsim-to-realトランスファーの背景について述べる。
本稿では,ドメインランダム化,ドメイン適応,模倣学習,メタラーニング,知識蒸留の3つの主要な手法について概説する。
論文 参考訳(メタデータ) (2020-09-24T21:05:46Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。