論文の概要: PRISM: Projection-based Reward Integration for Scene-Aware Real-to-Sim-to-Real Transfer with Few Demonstrations
- arxiv url: http://arxiv.org/abs/2504.20520v1
- Date: Tue, 29 Apr 2025 08:01:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.804345
- Title: PRISM: Projection-based Reward Integration for Scene-Aware Real-to-Sim-to-Real Transfer with Few Demonstrations
- Title(参考訳): PRISM: 実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
- Authors: Haowen Sun, Han Wang, Chengzhong Ma, Shaolong Zhang, Jiawei Ye, Xingyu Chen, Xuguang Lan,
- Abstract要約: 強化学習は、堅牢な行動を得るために自律的に探索することができる。
現実世界との直接の相互作用を通じてRLエージェントを訓練することは、しばしば非現実的で安全ではない。
本稿では,シミュレーション環境を専門家による実証に基づいて構築する,実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
- 参考スコア(独自算出の注目度): 24.77819842428131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from few demonstrations to develop policies robust to variations in robot initial positions and object poses is a problem of significant practical interest in robotics. Compared to imitation learning, which often struggles to generalize from limited samples, reinforcement learning (RL) can autonomously explore to obtain robust behaviors. Training RL agents through direct interaction with the real world is often impractical and unsafe, while building simulation environments requires extensive manual effort, such as designing scenes and crafting task-specific reward functions. To address these challenges, we propose an integrated real-to-sim-to-real pipeline that constructs simulation environments based on expert demonstrations by identifying scene objects from images and retrieving their corresponding 3D models from existing libraries. We introduce a projection-based reward model for RL policy training that is supervised by a vision-language model (VLM) using human-guided object projection relationships as prompts, with the policy further fine-tuned using expert demonstrations. In general, our work focuses on the construction of simulation environments and RL-based policy training, ultimately enabling the deployment of reliable robotic control policies in real-world scenarios.
- Abstract(参考訳): ロボットの初期位置とオブジェクトポーズの変動に頑健なポリシーを開発するために、少数のデモから学ぶことは、ロボット工学における重要な実践的関心の問題である。
限られたサンプルからの一般化に苦しむ模倣学習と比較して、強化学習(RL)は頑健な行動を得るために自律的に探索することができる。
実世界と直接対話するRLエージェントの訓練は非現実的で安全ではないことが多いが、シミュレーション環境の構築には、シーンの設計やタスク固有の報酬関数の作成など、広範囲な手作業が必要である。
これらの課題に対処するために,画像からシーンオブジェクトを識別し,既存のライブラリから対応する3Dモデルを取得することにより,専門家によるデモンストレーションに基づいてシミュレーション環境を構築する,実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-実-
本稿では,人間誘導オブジェクト投影関係をプロンプトとして用いた視覚言語モデル(VLM)によって指導されたRL政策訓練のためのプロジェクションベース報酬モデルを提案する。
一般論として,シミュレーション環境の構築とRLに基づくポリシトレーニングに注目し,現実のシナリオにおける信頼性の高いロボット制御ポリシの展開を可能にする。
関連論文リスト
- VR-Robo: A Real-to-Sim-to-Real Framework for Visual Robot Navigation and Locomotion [25.440573256776133]
本稿では,視覚ナビゲーションと移動学習のための物理的にインタラクティブな「デジタルツイン」シミュレーション環境を生成する,リアル・ツー・シム・トゥ・リアルのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-03T17:15:05Z) - URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images [39.0780707100513]
そこで本研究では,実世界の画像からキネマティック構造と動的構造を合成したシミュレーションシーンを生成するエンドツーエンドパイプラインを提案する。
そこで本研究は,大規模シミュレーション環境のためのパイプラインと,ロバストなロボット制御ポリシをトレーニングするための統合システムの両方を提供する。
論文 参考訳(メタデータ) (2024-05-19T20:01:29Z) - Evaluating Real-World Robot Manipulation Policies in Simulation [91.55267186958892]
実環境と模擬環境の制御と視覚的格差は、信頼性のある模擬評価の鍵となる課題である。
実環境に完全忠実なデジタル双生児を作らなくても、これらのギャップを軽減できる手法を提案する。
シミュレーション環境の集合体であるSIMPLERを作成した。
論文 参考訳(メタデータ) (2024-05-09T17:30:16Z) - Robust Visual Sim-to-Real Transfer for Robotic Manipulation [79.66851068682779]
シミュレーションにおけるビジュモータポリシーの学習は、現実世界よりも安全で安価である。
しかし、シミュレーションデータと実データとの相違により、シミュレータ訓練されたポリシーは実際のロボットに転送されると失敗することが多い。
視覚的なsim-to-real領域ギャップを埋める一般的なアプローチは、ドメインランダム化(DR)である。
論文 参考訳(メタデータ) (2023-07-28T05:47:24Z) - DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to
Reality [64.51295032956118]
我々は人型ロボットの手で頑健な操作を行える政策を訓練する。
本研究は,各種ハードウェアおよびシミュレータのデクスタラス操作におけるsim-to-real転送の可能性を再確認する。
論文 参考訳(メタデータ) (2022-10-25T01:51:36Z) - Affordance Learning from Play for Sample-Efficient Policy Learning [30.701546777177555]
遠隔操作型プレイデータから自己監督型ビジュアルアプライアンスモデルを用いて,効率的なポリシー学習とモーションプランニングを実現する。
モデルベースプランニングとモデルフリーの深層強化学習を組み合わせることで、人々が好む同じ対象領域を好むポリシーを学ぶ。
我々の政策はベースラインよりも4倍速くトレーニングし、新しいオブジェクトを一般化する。
論文 参考訳(メタデータ) (2022-03-01T11:00:35Z) - Practical Imitation Learning in the Real World via Task Consistency Loss [18.827979446629296]
本稿では,機能レベルと行動予測レベルの両方において,シミュレートと実際のアライメントを促進する自己監督的損失を提案する。
我々は、シミュレートとリアルで遠隔操作されたデモンストレーションを16.2時間しか使っていない10のシーンで80%の成功を達成した。
論文 参考訳(メタデータ) (2022-02-03T21:43:06Z) - An in-depth experimental study of sensor usage and visual reasoning of
robots navigating in real environments [20.105395754497202]
実物的エージェントの性能と推論能力について検討し、シミュレーションで訓練し、2つの異なる物理的環境に展開する。
我々は,PointGoalタスクに対して,多種多様なタスクを事前訓練し,対象環境の模擬バージョンを微調整したエージェントが,sim2real転送をモデル化せずに競争性能に達することを示す。
論文 参考訳(メタデータ) (2021-11-29T16:27:29Z) - Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。
連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。
我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文 参考訳(メタデータ) (2021-11-15T18:50:04Z) - Point Cloud Based Reinforcement Learning for Sim-to-Real and Partial
Observability in Visual Navigation [62.22058066456076]
強化学習(Reinforcement Learning, RL)は、複雑なロボットタスクを解決する強力なツールである。
RL は sim-to-real transfer problem として知られる現実世界では直接作用しない。
本稿では,点雲と環境ランダム化によって構築された観測空間を学習する手法を提案する。
論文 参考訳(メタデータ) (2020-07-27T17:46:59Z) - RL-CycleGAN: Reinforcement Learning Aware Simulation-To-Real [74.45688231140689]
本稿では、画像翻訳におけるRL-scene整合性損失を導入し、画像に関連付けられたQ値に対して変換操作が不変であることを保証する。
RL-CycleGANは実世界のシミュレーションから実世界への変換による強化学習のための新しい手法である。
論文 参考訳(メタデータ) (2020-06-16T08:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。