論文の概要: Robot Policy Learning with Temporal Optimal Transport Reward
- arxiv url: http://arxiv.org/abs/2410.21795v2
- Date: Sat, 02 Nov 2024 02:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:49:29.230863
- Title: Robot Policy Learning with Temporal Optimal Transport Reward
- Title(参考訳): 時間的最適輸送リワードを用いたロボット政策学習
- Authors: Yuwei Fu, Haichao Zhang, Di Wu, Wei Xu, Benoit Boulet,
- Abstract要約: リワード仕様は強化学習において最も難しい問題の1つです。
最近の研究は、1/2人の専門家によるビデオデモからロボットポリシーを学習する方法を調査している。
本稿では、時間的順序情報を組み込むために、時間的最適輸送(Temporal Optimal Transport, TemporalOT)報酬を導入する。
- 参考スコア(独自算出の注目度): 18.60627708199452
- License:
- Abstract: Reward specification is one of the most tricky problems in Reinforcement Learning, which usually requires tedious hand engineering in practice. One promising approach to tackle this challenge is to adopt existing expert video demonstrations for policy learning. Some recent work investigates how to learn robot policies from only a single/few expert video demonstrations. For example, reward labeling via Optimal Transport (OT) has been shown to be an effective strategy to generate a proxy reward by measuring the alignment between the robot trajectory and the expert demonstrations. However, previous work mostly overlooks that the OT reward is invariant to temporal order information, which could bring extra noise to the reward signal. To address this issue, in this paper, we introduce the Temporal Optimal Transport (TemporalOT) reward to incorporate temporal order information for learning a more accurate OT-based proxy reward. Extensive experiments on the Meta-world benchmark tasks validate the efficacy of the proposed method. Code is available at: https://github.com/fuyw/TemporalOT
- Abstract(参考訳): Reward仕様は強化学習において最も難しい問題の1つである。
この課題に取り組むための有望なアプローチの1つは、ポリシー学習に既存のエキスパートビデオデモを採用することである。
最近の研究では、1/2人の専門家によるビデオデモからロボットポリシーを学習する方法が研究されている。
例えば、最適輸送(OT)による報酬ラベリングは、ロボット軌道と専門家のデモンストレーションとのアライメントを測定することで、プロキシ報酬を生成する効果的な戦略であることが示されている。
しかし、以前の研究は、OT報酬は時間的順序情報に不変であり、報酬信号に余分なノイズをもたらす可能性があるとほとんど見落としていた。
本稿では,時間的最適輸送(Temporal Optimal Transport, TemporalOT)報酬を導入し,時間的順序情報を組み込んで,より正確なOTベースのプロキシ報酬を学習する。
Meta-worldベンチマークタスクの大規模な実験により,提案手法の有効性が検証された。
コードは、https://github.com/fuyw/TemporalOTで入手できる。
関連論文リスト
- REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics via
Novel-View Synthesis [50.93065653283523]
SPARTN(Synthetic Perturbations for Augmenting Robot Trajectories via NeRF)は、ロボットポリシーを改善するための完全なオフラインデータ拡張スキームである。
提案手法はニューラルレイディアンス場(NeRF)を利用して,視覚的デモンストレーションに補正ノイズを合成注入する。
シミュレーションされた6-DoF視覚的把握ベンチマークでは、SPARTNは精度を2.8$times$で改善する。
論文 参考訳(メタデータ) (2023-01-18T23:25:27Z) - Reward Relabelling for combined Reinforcement and Imitation Learning on
sparse-reward tasks [2.0305676256390934]
そこで本稿では, オンライン上で収集した実演とエピソードを, オフ・ポリティクス・アルゴリズムを用いて任意のスパース・リワード環境において活用する手法を提案する。
本手法は、実演や成功エピソードに与えられる報酬ボーナスに基づいて、専門家の模倣と自己模倣を奨励する。
実験では、ロボット工学の操作、特にシミュレーションにおける6自由度ロボットアームの3つのタスクに焦点を当てた。
論文 参考訳(メタデータ) (2022-01-11T08:35:18Z) - Action Priors for Large Action Spaces in Robotics [6.16827157770137]
ロボット工学では、純粋なモデルレス強化学習を用いて有用なポリシーを学ぶことはしばしば不可能である。
本論文では,解決した課題の解決方法を用いてアクションを事前に作成する手法を提案する。
論文 参考訳(メタデータ) (2021-01-11T20:30:54Z) - A Framework for Efficient Robotic Manipulation [79.10407063260473]
単一のロボットアームがピクセルからスパースリワード操作ポリシーを学習できることを示します。
デモは10回しかなく、単一のロボットアームがピクセルからスパースリワード操作のポリシーを学習できることを示しています。
論文 参考訳(メタデータ) (2020-12-14T22:18:39Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z) - Learning rewards for robotic ultrasound scanning using probabilistic
temporal ranking [17.494224125794187]
本研究は,課題の目的が不明な逆問題を考えるとともに,実例から報酬関数を推定する必要がある。
既存の報酬推論戦略の多くは、実験の探索的な性質のため、この種の問題には適していない。
この確率的時間的ランク付けアプローチを定式化し、既存のアプローチを改善したことを示す。
論文 参考訳(メタデータ) (2020-02-04T11:58:38Z) - Reward Engineering for Object Pick and Place Training [3.4806267677524896]
OpenAIのGymが提供するPick and Place環境を使って報酬をエンジニアリングしています。
OpenAIベースラインと環境のデフォルト設定では、目標位置とロボットエンドエフェクタ間の距離を用いて報酬関数を算出する。
また、学習ポリシーに特定のユーザ希望のトラジェクトリを導入することも可能でした。
論文 参考訳(メタデータ) (2020-01-11T20:13:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。