論文の概要: VideoAgent: Self-Improving Video Generation
- arxiv url: http://arxiv.org/abs/2410.10076v2
- Date: Tue, 15 Oct 2024 02:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 03:14:03.582997
- Title: VideoAgent: Self-Improving Video Generation
- Title(参考訳): VideoAgent: 自己改善型ビデオ生成
- Authors: Achint Soni, Sreyas Venkataraman, Abhranil Chandra, Sebastian Fischmeister, Percy Liang, Bo Dai, Sherry Yang,
- Abstract要約: ビデオ生成は、ロボットシステムを制御する視覚的な計画を生成するために使われてきた。
ビデオ生成を制御に活用する上での大きなボトルネックは、生成されたビデオの品質にある。
本稿では,外部からのフィードバックに基づいて生成した映像プランを自己改善するためのVideoAgentを提案する。
- 参考スコア(独自算出の注目度): 47.627088484395834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation has been used to generate visual plans for controlling robotic systems. Given an image observation and a language instruction, previous work has generated video plans which are then converted to robot controls to be executed. However, a major bottleneck in leveraging video generation for control lies in the quality of the generated videos, which often suffer from hallucinatory content and unrealistic physics, resulting in low task success when control actions are extracted from the generated videos. While scaling up dataset and model size provides a partial solution, integrating external feedback is both natural and essential for grounding video generation in the real world. With this observation, we propose VideoAgent for self-improving generated video plans based on external feedback. Instead of directly executing the generated video plan, VideoAgent first refines the generated video plans using a novel procedure which we call self-conditioning consistency, utilizing feedback from a pretrained vision-language model (VLM). As the refined video plan is being executed, VideoAgent collects additional data from the environment to further improve video plan generation. Experiments in simulated robotic manipulation from MetaWorld and iTHOR show that VideoAgent drastically reduces hallucination, thereby boosting success rate of downstream manipulation tasks. We further illustrate that VideoAgent can effectively refine real-robot videos, providing an early indicator that robotics can be an effective tool in grounding video generation in the physical world.
- Abstract(参考訳): ビデオ生成は、ロボットシステムを制御する視覚的な計画を生成するために使われてきた。
画像観察と言語指導が与えられた後、以前の研究でビデオプランが作成され、ロボット制御に変換されて実行される。
しかし、ビデオ生成を制御に活用する際の大きなボトルネックは、しばしば幻覚的内容や非現実的な物理に悩まされる、生成されたビデオから制御アクションが抽出された場合のタスク成功率の低下にある。
データセットとモデルサイズをスケールアップすることは、部分的なソリューションを提供する一方で、外部からのフィードバックを統合することは、現実の世界におけるビデオ生成の基盤として自然かつ不可欠である。
本研究では,外部からのフィードバックに基づいて生成した映像プランを自己改善するためのVideoAgentを提案する。
生成したビデオプランを直接実行する代わりに、VLM(Venture-Language Model)からのフィードバックを利用して、自己条件整合性(self-conditioning consistency)と呼ばれる新しい手順を用いて、生成したビデオプランを改良する。
改良されたビデオプランが実行されているため、VideoAgentは環境から追加のデータを収集し、ビデオプランの生成をさらに改善する。
MetaWorldとiTHORによるロボット操作のシミュレーション実験は、VideoAgentが幻覚を劇的に減らし、下流での操作タスクの成功率を高めることを示した。
さらに、VideoAgentはリアルロボットのビデオを効果的に洗練することができ、ロボット工学が物理的な世界におけるビデオ生成の効果的なツールであることを示す早期の指標を提供する。
関連論文リスト
- VILP: Imitation Learning with Latent Video Planning [19.25411361966752]
本稿では、遅延ビデオ計画(VILP)による模倣学習を紹介する。
複数のビューから高度にタイムアラインなビデオを生成することができる。
本稿では,映像生成モデルをロボットポリシーに効果的に統合する方法の実践例を提供する。
論文 参考訳(メタデータ) (2025-02-03T19:55:57Z) - Generative Video Propagation [87.15843701018099]
我々のフレームワークであるGenPropは、オリジナルビデオを選択コンテンツエンコーダでエンコードし、画像から映像への生成モデルを用いて第1フレームに変更を伝達する。
実験結果は,様々なビデオタスクにおいて,我々のモデルが先行する性能を示す。
論文 参考訳(メタデータ) (2024-12-27T17:42:29Z) - Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation [74.70013315714336]
Gen2Actは、ゼロショットのヒューマンビデオ生成として言語条件の操作をキャストし、生成したビデオに対して単一のポリシーで実行します。
実世界の多様なシナリオにおいて,Gen2Actがロボットデータに存在しないタスクに対して,未知のオブジェクトタイプを操作したり,新たな動作を実行したりすることができることを示す。
論文 参考訳(メタデータ) (2024-09-24T17:57:33Z) - Kubrick: Multimodal Agent Collaborations for Synthetic Video Generation [4.147294190096431]
視覚大言語モデル(VLM)エージェントの協調に基づく自動合成ビデオ生成パイプラインを提案する。
ビデオの自然言語記述が与えられた後、複数のVLMエージェントが生成パイプラインの様々なプロセスを自動指揮する。
生成したビデオは、ビデオ品質と命令追従性能の5つの指標において、商用ビデオ生成モデルよりも優れた品質を示す。
論文 参考訳(メタデータ) (2024-08-19T23:31:02Z) - Vision-based Manipulation from Single Human Video with Open-World Object Graphs [58.23098483464538]
我々は、人間のビデオから視覚に基づく操作スキルを学ぶために、ロボットに力を与えるオブジェクト中心のアプローチを提案する。
ORIONは,単一のRGB-Dビデオからオブジェクト中心の操作計画を抽出することで,この問題に対処するアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-30T17:56:54Z) - Reframe Anything: LLM Agent for Open World Video Reframing [0.8424099022563256]
ビデオリフレーミングのためのビジュアルコンテンツを再構成するAIベースのエージェントであるReframe Any Video Agent (RAVA)を紹介する。
RAVAは、ユーザーの指示やビデオコンテンツを解釈する知覚、アスペクト比やフレーミング戦略を決定する計画、最終映像を作成するための編集ツールを呼び出す実行の3段階からなる。
我々の実験は、AIを利用したビデオ編集ツールとしての可能性を実証し、ビデオの有能なオブジェクト検出と現実世界のリフレーミングタスクにおけるRAVAの有効性を検証した。
論文 参考訳(メタデータ) (2024-03-10T03:29:56Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - Video Language Planning [137.06052217713054]
ビデオ言語計画法は木探索法により構成されるアルゴリズムで、(i)視覚言語モデルにポリシーと値関数の両方を提供するよう訓練し、(ii)動的モデルとしてテキストからビデオモデルを作成する。
提案アルゴリズムは,最終作業の完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を生成する。
シミュレーションロボットと実ロボットの両方の従来の手法と比較して、長時間作業の成功率を大幅に向上させる。
論文 参考訳(メタデータ) (2023-10-16T17:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。