論文の概要: Subtask-Aware Visual Reward Learning from Segmented Demonstrations
- arxiv url: http://arxiv.org/abs/2502.20630v1
- Date: Fri, 28 Feb 2025 01:25:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:44:14.247951
- Title: Subtask-Aware Visual Reward Learning from Segmented Demonstrations
- Title(参考訳): セグメンテーションによるサブタスク対応ビジュアルリワード学習
- Authors: Changyeon Kim, Minho Heo, Doohyun Lee, Jinwoo Shin, Honglak Lee, Joseph J. Lim, Kimin Lee,
- Abstract要約: 本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。
我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。
実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
- 参考スコア(独自算出の注目度): 97.80917991633248
- License:
- Abstract: Reinforcement Learning (RL) agents have demonstrated their potential across various robotic tasks. However, they still heavily rely on human-engineered reward functions, requiring extensive trial-and-error and access to target behavior information, often unavailable in real-world settings. This paper introduces REDS: REward learning from Demonstration with Segmentations, a novel reward learning framework that leverages action-free videos with minimal supervision. Specifically, REDS employs video demonstrations segmented into subtasks from diverse sources and treats these segments as ground-truth rewards. We train a dense reward function conditioned on video segments and their corresponding subtasks to ensure alignment with ground-truth reward signals by minimizing the Equivalent-Policy Invariant Comparison distance. Additionally, we employ contrastive learning objectives to align video representations with subtasks, ensuring precise subtask inference during online interactions. Our experiments show that REDS significantly outperforms baseline methods on complex robotic manipulation tasks in Meta-World and more challenging real-world tasks, such as furniture assembly in FurnitureBench, with minimal human intervention. Moreover, REDS facilitates generalization to unseen tasks and robot embodiments, highlighting its potential for scalable deployment in diverse environments.
- Abstract(参考訳): 強化学習(RL)エージェントは、様々なロボットタスクでその可能性を実証している。
しかし、人間工学的な報酬関数に大きく依存しており、大規模な試行錯誤とターゲットの行動情報へのアクセスが必要であり、現実の環境では利用できないことが多い。
本稿では,ReDS: Reward Learning from Demonstration with Segmentationsを紹介する。
具体的には、REDSは様々なソースからサブタスクにセグメント化されたビデオデモを採用し、これらのセグメントを地道的な報酬として扱う。
ビデオセグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数をトレーニングし、等価・多変量比較距離を最小化することにより、地道報酬信号との整合性を確保する。
さらに,ビデオ表現をサブタスクと整合させるために,コントラスト学習の目的を取り入れ,オンラインインタラクションにおける高精度なサブタスク推論を実現する。
我々の実験によると、REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法と、FurnitureBenchにおける家具組立のようなより困難な現実的なタスクにおいて、人間の介入を最小限に抑えながら、かなり優れています。
さらに、REDSは、見えないタスクやロボットの具体化への一般化を促進し、多様な環境におけるスケーラブルなデプロイメントの可能性を強調している。
関連論文リスト
- A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards [29.923942622540356]
動的タスク仕様として機能するPythonベースの報酬関数であるIterative Keypoint Reward(IKER)を紹介する。
我々はシミュレーションで現実のシーンを再構築し、生成した報酬を使って強化学習ポリシーを訓練する。
この結果から,ロボットが動的環境下で複数ステップのタスクを行えるようにしたIKERの有効性が示唆された。
論文 参考訳(メタデータ) (2025-02-12T18:57:22Z) - Dynamic Non-Prehensile Object Transport via Model-Predictive Reinforcement Learning [24.079032278280447]
バッチ強化学習(RL)とモデル予測制御(MPC)を組み合わせたアプローチを提案する。
提案手法は,ロボットウェイタータスクを実行するFranka Pandaロボットのシミュレーションおよび実世界実験により検証される。
論文 参考訳(メタデータ) (2024-11-27T03:33:42Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Improving Reinforcement Learning Efficiency with Auxiliary Tasks in
Non-Visual Environments: A Comparison [0.0]
本研究は,低次元非視覚的観察のための唯一の疎結合表現学習法である,我々の知識を最大限に活用して,一般的な補助課題と比較する。
その結果, 十分複雑な環境下では, 補助的タスクによる表現学習は, 性能向上にのみ寄与することがわかった。
論文 参考訳(メタデータ) (2023-10-06T13:22:26Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。