論文の概要: Learning to Act from Actionless Videos through Dense Correspondences
- arxiv url: http://arxiv.org/abs/2310.08576v1
- Date: Thu, 12 Oct 2023 17:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 08:12:57.637781
- Title: Learning to Act from Actionless Videos through Dense Correspondences
- Title(参考訳): ディエンス対応によるアクションレスビデオからの行動学習
- Authors: Po-Chen Ko, Jiayuan Mao, Yilun Du, Shao-Hua Sun, Joshua B. Tenenbaum
- Abstract要約: 本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 87.1243107115642
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present an approach to construct a video-based robot policy
capable of reliably executing diverse tasks across different robots and
environments from few video demonstrations without using any action
annotations. Our method leverages images as a task-agnostic representation,
encoding both the state and action information, and text as a general
representation for specifying robot goals. By synthesizing videos that
``hallucinate'' robot executing actions and in combination with dense
correspondences between frames, our approach can infer the closed-formed action
to execute to an environment without the need of any explicit action labels.
This unique capability allows us to train the policy solely based on RGB videos
and deploy learned policies to various robotic tasks. We demonstrate the
efficacy of our approach in learning policies on table-top manipulation and
navigation tasks. Additionally, we contribute an open-source framework for
efficient video modeling, enabling the training of high-fidelity policy models
with four GPUs within a single day.
- Abstract(参考訳): 本稿では,アクションアノテーションを使わずに,様々なロボットや環境にまたがる多様なタスクを確実に実行可能な映像ベースのロボットポリシーを構築する手法を提案する。
本手法は,ロボットの目標を特定する汎用表現として,状態情報と行動情報の両方を符号化するタスク依存表現として画像を利用する。
ロボットが動作を実行するビデオの合成とフレーム間の密接な対応を組み合わせることで,明示的な動作ラベルを必要とせずに,閉鎖的な動作を環境に推論することができる。
このユニークな機能は、RGBビデオのみに基づいてポリシーをトレーニングし、さまざまなロボットタスクに学習されたポリシーをデプロイすることを可能にする。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
さらに、効率的なビデオモデリングのためのオープンソースのフレームワークを提供し、一日で4つのGPUで高忠実度ポリシーモデルのトレーニングを可能にする。
関連論文リスト
- Large-Scale Actionless Video Pre-Training via Discrete Diffusion for
Efficient Policy Learning [73.69573252516761]
本稿では,人間のビデオにおける生成前訓練とアクションラベル付きロボットビデオのポリシー微調整を組み合わせた新しいフレームワークを提案する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Learning Video-Conditioned Policies for Unseen Manipulation Tasks [83.2240629060453]
ビデオ条件付きポリシー学習は、以前は目に見えないタスクの人間のデモをロボット操作スキルにマッピングする。
我々は,現在のシーン観察と対象課題のビデオから適切なアクションを生成するためのポリシーを学習する。
われわれは,多タスクロボット操作環境の課題と,技術面における性能の面から,そのアプローチを検証した。
論文 参考訳(メタデータ) (2023-05-10T16:25:42Z) - Zero-Shot Robot Manipulation from Passive Human Videos [59.193076151832145]
我々は,人間の映像からエージェント非依存の行動表現を抽出するフレームワークを開発した。
我々の枠組みは、人間の手の動きを予測することに基づいている。
トレーニングされたモデルゼロショットを物理ロボット操作タスクにデプロイする。
論文 参考訳(メタデータ) (2023-02-03T21:39:52Z) - Learning Universal Policies via Text-Guided Video Generation [179.6347119101618]
人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。
テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。
このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-01-31T21:28:13Z) - Signs of Language: Embodied Sign Language Fingerspelling Acquisition
from Demonstrations for Human-Robot Interaction [1.0166477175169308]
本稿では,ビデオ例からデキスタスモータの模倣を学習する手法を提案する。
まず,関節に1つのアクチュエータを備えたロボットハンドのURDFモデルを構築した。
トレーニング済みのディープビジョンモデルを利用して、RGBビデオから手の3Dポーズを抽出する。
論文 参考訳(メタデータ) (2022-09-12T10:42:26Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。