論文の概要: Grounding Video Models to Actions through Goal Conditioned Exploration
- arxiv url: http://arxiv.org/abs/2411.07223v1
- Date: Mon, 11 Nov 2024 18:43:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:38.766280
- Title: Grounding Video Models to Actions through Goal Conditioned Exploration
- Title(参考訳): ゴール条件付き探索による行動に対する映像モデルの構築
- Authors: Yunhao Luo, Yilun Du,
- Abstract要約: 本稿では,エージェントが複雑なタスクを解くために,映像誘導とトラジェクトリレベルのアクション生成を利用するフレームワークを提案する。
当社のアプローチが,専門家によるデモンストレーションでトレーニングされた,複数の行動クローンベースラインと同等であるか,あるいは超越しているかを示します。
- 参考スコア(独自算出の注目度): 29.050431676226115
- License:
- Abstract: Large video models, pretrained on massive amounts of Internet video, provide a rich source of physical knowledge about the dynamics and motions of objects and tasks. However, video models are not grounded in the embodiment of an agent, and do not describe how to actuate the world to reach the visual states depicted in a video. To tackle this problem, current methods use a separate vision-based inverse dynamic model trained on embodiment-specific data to map image states to actions. Gathering data to train such a model is often expensive and challenging, and this model is limited to visual settings similar to the ones in which data are available. In this paper, we investigate how to directly ground video models to continuous actions through self-exploration in the embodied environment -- using generated video states as visual goals for exploration. We propose a framework that uses trajectory level action generation in combination with video guidance to enable an agent to solve complex tasks without any external supervision, e.g., rewards, action labels, or segmentation masks. We validate the proposed approach on 8 tasks in Libero, 6 tasks in MetaWorld, 4 tasks in Calvin, and 12 tasks in iThor Visual Navigation. We show how our approach is on par with or even surpasses multiple behavior cloning baselines trained on expert demonstrations while without requiring any action annotations.
- Abstract(参考訳): 大量のインターネットビデオで事前訓練された大規模なビデオモデルは、オブジェクトやタスクのダイナミクスや動きに関する豊富な物理的知識を提供する。
しかし、ビデオモデルはエージェントの体現に根付いておらず、ビデオに描かれた視覚状態に到達するために世界を活性化する方法を記述していない。
この問題に対処するために、現在の手法では、エンボディメント固有のデータに基づいて訓練された視覚ベースの逆動的モデルを使用して、画像状態のアクションへのマッピングを行っている。
このようなモデルをトレーニングするためのデータ収集は高価で難しいことが多く、このモデルはデータが利用可能なものに似た視覚的設定に限られる。
本稿では, 実環境下での自己探索により, 映像モデルを直接的かつ連続的な行動に向け, 生成した映像状態を探索の視覚的目標として利用する方法について検討する。
本稿では,映像誘導と組み合わせた軌跡レベルの行動生成を用いて,エージェントが複雑なタスクを,例えば報酬,行動ラベル,セグメンテーションマスクなどの外部監督なしに解決できるようにするフレームワークを提案する。
提案手法は,Liberoの8つのタスク,MetaWorldの6つのタスク,Calvinの4つのタスク,iThor Visual Navigationの12のタスクに対して検証する。
我々は、アクションアノテーションを必要とせず、専門家のデモで訓練された複数の振る舞いのクローンベースラインと、我々のアプローチがどのように一致しているかを示します。
関連論文リスト
- AICL: Action In-Context Learning for Video Diffusion Model [124.39948693332552]
本稿では,参照ビデオにおける行動情報を理解する能力を備えた生成モデルを実現するAICLを提案する。
大規模な実験では、AICLが効果的にアクションをキャプチャし、最先端の世代パフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2024-03-18T07:41:19Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Learning to Act from Actionless Videos through Dense Correspondences [87.1243107115642]
本稿では,様々なロボットや環境にまたがる多様なタスクを確実に実行可能なビデオベースのロボットポリシーを構築するためのアプローチを提案する。
本手法は,ロボットの目標を指定するための汎用表現として,状態情報と行動情報の両方を符号化するタスク非依存表現として画像を利用する。
テーブルトップ操作とナビゲーションタスクの学習方針における我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-10-12T17:59:23Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - Dense Video Object Captioning from Disjoint Supervision [77.47084982558101]
本稿では,高密度ビデオオブジェクトキャプションのための新しいタスクとモデルを提案する。
このタスクは、ビデオにおける空間的および時間的局所化を統一する。
我々は、この新しいタスクの強力なベースラインにおいて、我々のモデルがどのように改善されているかを示す。
論文 参考訳(メタデータ) (2023-06-20T17:57:23Z) - Learn the Force We Can: Enabling Sparse Motion Control in Multi-Object
Video Generation [26.292052071093945]
単一のフレームとスパース動作入力からビデオを生成する教師なしの手法を提案する。
我々の訓練されたモデルは、目に見えない現実的なオブジェクト間相互作用を生成できる。
ヨダは、制御性と映像品質の両面において、先行するアートビデオ生成の状況と同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-06-06T19:50:02Z) - Multi-Task Learning of Object State Changes from Uncurated Videos [55.60442251060871]
我々は、長い未処理のウェブビデオにおいて、オブジェクトと対話する人々を観察することで、オブジェクトの状態変化を時間的にローカライズすることを学ぶ。
マルチタスクモデルでは,従来のシングルタスク手法に比べて40%の相対的な改善が達成されている。
また,EPIC-KITCHENSとEgo4Dデータセットを0ショット設定で長時間遠心分離したビデオでテストした。
論文 参考訳(メタデータ) (2022-11-24T09:42:46Z) - Model-Based Visual Planning with Self-Supervised Functional Distances [104.83979811803466]
モデルに基づく視覚的目標達成のための自己監視手法を提案する。
私たちのアプローチは、オフラインでラベルなしのデータを使って完全に学習します。
このアプローチは,モデルフリーとモデルベース先行手法の両方で大幅に性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T23:59:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。