論文の概要: Video Language Planning
- arxiv url: http://arxiv.org/abs/2310.10625v1
- Date: Mon, 16 Oct 2023 17:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 12:28:24.485121
- Title: Video Language Planning
- Title(参考訳): ビデオ言語プランニング
- Authors: Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian
Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum,
Leslie Kaelbling, Andy Zeng, Jonathan Tompson
- Abstract要約: ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 137.06052217713054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We are interested in enabling visual planning for complex long-horizon tasks
in the space of generated videos and language, leveraging recent advances in
large generative models pretrained on Internet-scale data. To this end, we
present video language planning (VLP), an algorithm that consists of a tree
search procedure, where we train (i) vision-language models to serve as both
policies and value functions, and (ii) text-to-video models as dynamics models.
VLP takes as input a long-horizon task instruction and current image
observation, and outputs a long video plan that provides detailed multimodal
(video and language) specifications that describe how to complete the final
task. VLP scales with increasing computation budget where more computation time
results in improved video plans, and is able to synthesize long-horizon video
plans across different robotics domains: from multi-object rearrangement, to
multi-camera bi-arm dexterous manipulation. Generated video plans can be
translated into real robot actions via goal-conditioned policies, conditioned
on each intermediate frame of the generated video. Experiments show that VLP
substantially improves long-horizon task success rates compared to prior
methods on both simulated and real robots (across 3 hardware platforms).
- Abstract(参考訳): 我々は、インターネット規模で事前学習された大規模な生成モデルにおける最近の進歩を活用し、生成したビデオや言語空間における複雑な長期タスクの視覚的計画の実現に興味を持っている。
この目的のために,木探索手順からなるアルゴリズムであるビデオ言語計画法(VLP)を提案する。
(i)政策と価値関数の両方として機能する視覚言語モデル、
(ii)ダイナミックスモデルとしてのテキスト・ビデオモデル。
VLPは、長い水平タスク命令と現在のイメージ観察を入力として受け取り、最終タスクの完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を提供する長いビデオプランを出力する。
VLPは計算予算を増大させ、より多くの計算時間がビデオプランの改善をもたらすとともに、マルチオブジェクト再構成からマルチカメラバイアームデキスタス操作に至るまで、さまざまなロボティクス領域にわたる長い水平ビデオプランを合成することができる。
生成されたビデオプランは、生成されたビデオの各中間フレームで条件付けられたゴール条件付きポリシーを通じて、実際のロボットアクションに変換できる。
実験により、VLPは、シミュレーションと実際のロボット(3つのハードウェアプラットフォーム全体)の従来の手法と比較して、長時間作業の成功率を大幅に改善することが示された。
関連論文リスト
- VG-TVP: Multimodal Procedural Planning via Visually Grounded Text-Video Prompting [14.065845158830445]
本稿では,新しいマルチモーダル・プロシージャ・プランニング・フレームワークであるVG-TVP法を提案する。
特定の高レベルな目標を与えられた凝集性テキストとビデオプロシージャプランを生成する。
当社のVG-TVP法は,Daily-PPデータセット上での単調なベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-12-16T10:08:38Z) - FLIP: Flow-Centric Generative Planning as General-Purpose Manipulation World Model [2.9509867426905925]
本稿では,視覚空間のモデルベース計画アルゴリズムFLIPについて述べる。
FLIPは、オブジェクト、ロボット、タスクに対して、一般的なアクション表現としてイメージフローを持つ長い水平プランを合成することができる。
さらに、合成されたフローとビデオプランは、ロボットの実行のための低レベル制御ポリシーのトレーニングをガイドすることができる。
論文 参考訳(メタデータ) (2024-12-11T10:17:00Z) - PiTe: Pixel-Temporal Alignment for Large Video-Language Model [40.76776645042339]
最近のLVidLM(Large Video-Language Models)は、画像のような静的な視覚データを言語機能の潜在空間に整列させる。
提案するLVidLMは,PiTeと呼ばれるトラジェクトリ誘導型Pixel-Temporal Alignmentによって実現可能なモデル特性を示す。
論文 参考訳(メタデータ) (2024-09-11T12:53:07Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - VideoPoet: A Large Language Model for Zero-Shot Video Generation [78.57171527944774]
VideoPoetは、高品質なビデオと一致するオーディオを合成できる言語モデルである。
VideoPoetはマルチモーダル入力を処理するデコーダのみのトランスフォーマーアーキテクチャを採用している。
論文 参考訳(メタデータ) (2023-12-21T18:46:41Z) - VLAB: Enhancing Video Language Pre-training by Feature Adapting and
Blending [78.1399386935455]
CLIPのような大規模画像テキストコントラスト事前学習モデルは、高品質なマルチモーダル表現を効果的に学習することが実証されている。
本稿では,VLAB(VLAB: Video Language pre-training by feature generativeality and Blending)という新しいビデオテキスト事前学習手法を提案する。
VLABはCLIP表現をビデオ事前訓練タスクに転送し、幅広いビデオテキストタスクのための統合ビデオマルチモーダルモデルを開発する。
論文 参考訳(メタデータ) (2023-05-22T15:54:22Z) - Pretrained Language Models as Visual Planners for Human Assistance [12.8775186900555]
Visual Planning for Assistance (VPA)は、ユーザが複雑な多段階目標を達成するためのツールである。
VPAをビデオアクションセグメンテーションと予測に分解する。
この新しいアプローチは、Visual Language Model Based Planner (VLaMP)と呼ばれ、一連のメトリクスでベースラインを上回ります。
論文 参考訳(メタデータ) (2023-04-17T18:07:36Z) - STOA-VLP: Spatial-Temporal Modeling of Object and Action for
Video-Language Pre-training [30.16501510589718]
本研究では,空間的・時間的次元にまたがる対象情報と行動情報を協調的にモデル化する事前学習フレームワークを提案する。
我々は,ビデオ言語モデルの事前学習プロセスに,両方の情報をよりうまく組み込むための2つの補助タスクを設計する。
論文 参考訳(メタデータ) (2023-02-20T03:13:45Z) - Learning Universal Policies via Text-Guided Video Generation [179.6347119101618]
人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。
テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。
このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-01-31T21:28:13Z) - HierVL: Learning Hierarchical Video-Language Embeddings [108.77600799637172]
HierVLは階層的なビデオ言語埋め込みであり、長期および短期の関連を同時に扱う。
クリップレベルとビデオレベルの両方でテキストと視覚のアライメントを促進する階層的なコントラストトレーニングの目標を導入する。
我々の階層的スキームは、SotAを達成した長期的なビデオ表現と同様に、その単一レベルよりも優れたクリップ表現をもたらす。
論文 参考訳(メタデータ) (2023-01-05T21:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。