論文の概要: Inverse Reinforcement Learning from Diverse Third-Person Videos via
Graph Abstraction
- arxiv url: http://arxiv.org/abs/2207.14299v1
- Date: Thu, 28 Jul 2022 17:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 12:38:42.325825
- Title: Inverse Reinforcement Learning from Diverse Third-Person Videos via
Graph Abstraction
- Title(参考訳): グラフ抽象化による逆3人称映像からの逆強化学習
- Authors: Sateesh Kumar, Jonathan Zamora, Nicklas Hansen, Rishabh Jangir,
Xiaolong Wang
- Abstract要約: Inverse Reinforcement Learning (IRL) の研究は、ロボット作業のための手動報酬設計の必要性を除去するための奨励的な結果を示している。
我々は、第三者IRLの真の可能性は、ビデオの多様性を拡大してスケーリングを改善することであると論じている。
従来の手法に比べて,多種多様なビデオデモに対するロバスト性に大きな改善が見られた。
- 参考スコア(独自算出の注目度): 10.768823433133393
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on Inverse Reinforcement Learning (IRL) from third-person videos has
shown encouraging results on removing the need for manual reward design for
robotic tasks. However, most prior works are still limited by training from a
relatively restricted domain of videos. In this paper, we argue that the true
potential of third-person IRL lies in increasing the diversity of videos for
better scaling. To learn a reward function from diverse videos, we propose to
perform graph abstraction on the videos followed by temporal matching in the
graph space to measure the task progress. Our insight is that a task can be
described by entity interactions that form a graph, and this graph abstraction
can help remove irrelevant information such as textures, resulting in more
robust reward functions. We evaluate our approach, GraphIRL, on
cross-embodiment learning in X-MAGICAL and learning from human demonstrations
for real-robot manipulation. We show significant improvements in robustness to
diverse video demonstrations over previous approaches, and even achieve better
results than manual reward design on a real robot pushing task. Videos are
available at https://sateeshkumar21.github.io/GraphIRL .
- Abstract(参考訳): 3人称ビデオからの逆強化学習(IRL)の研究は、ロボット作業のための手動報酬設計の必要性を除去するための奨励的な結果を示している。
しかし、以前の作品のほとんどは、ビデオの比較的限られた領域からのトレーニングによって制限されている。
本稿では,3人称IRLの真の可能性は,ビデオの多様性を高めることにある,と論じる。
様々なビデオから報奨機能を学ぶために,動画上でグラフ抽象化を行い,そのグラフ空間で時間マッチングを行い,タスクの進捗を計測する。
私たちの洞察では、タスクはグラフを形成するエンティティ相互作用によって記述することができ、このグラフ抽象化はテクスチャのような無関係な情報を取り除くのに役立ち、より堅牢な報酬関数をもたらす。
我々は,X-MRIにおけるクロスボデーメント学習と実ロボット操作のための人間の実演からの学習に対するアプローチであるGraphIRLを評価した。
従来の手法よりも多種多様なビデオデモに対するロバスト性を大幅に向上させ,実際のロボットプッシュタスクにおいて手動報酬設計よりも優れた結果が得られることを示した。
ビデオはhttps://sateeshkumar21.github.io/graphirlで閲覧できる。
関連論文リスト
- Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Learning Object Manipulation Skills from Video via Approximate
Differentiable Physics [27.923004421974156]
我々はロボットに、単一のビデオデモを見て、シンプルなオブジェクト操作タスクを実行するように教える。
識別可能なシーンは、3Dシーンと2Dビデオの間の知覚的忠実性を保証する。
我々は,54のデモ映像からなる3次元再構成作業に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-08-03T10:21:47Z) - GraphVid: It Only Takes a Few Nodes to Understand a Video [0.0]
視覚的に意味のある特徴をグラフにエンコードするビデオの簡潔な表現を提案する。
我々は,スーパーピクセルをグラフノードとして考慮し,ビデオのスーパーピクセルベースグラフ表現を構築した。
グラフ畳み込みネットワークを利用して、この表現を処理し、所望の出力を予測する。
論文 参考訳(メタデータ) (2022-07-04T12:52:54Z) - Learning Generalizable Robotic Reward Functions from "In-The-Wild" Human
Videos [59.58105314783289]
ドメインに依存しないビデオ識別器(DVD)は、2つのビデオが同じタスクを実行しているかどうかを判断するために識別器を訓練することによりマルチタスク報酬関数を学習する。
DVDは、人間のビデオの広いデータセットで少量のロボットデータから学習することで、一般化することができる。
DVDと視覚モデル予測制御を組み合わせることで、実際のWidowX200ロボットのロボット操作タスクを単一の人間のデモから未知の環境で解決できます。
論文 参考訳(メタデータ) (2021-03-31T05:25:05Z) - Learning Object Manipulation Skills via Approximate State Estimation
from Real Videos [47.958512470724926]
人間は、いくつかの指導ビデオを見て、新しいタスクを学ぶことに精通しています。
一方、新しいアクションを学習するロボットは、試行錯誤によって多くの労力を必要とするか、あるいは入手が困難な専門家によるデモを使う必要がある。
本稿では,ビデオから直接オブジェクト操作スキルを学習する手法について検討する。
論文 参考訳(メタデータ) (2020-11-13T08:53:47Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。