論文の概要: Programmatic Video Prediction Using Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14948v1
- Date: Tue, 20 May 2025 22:17:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.778153
- Title: Programmatic Video Prediction Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたプログラムによる映像予測
- Authors: Hao Tang, Kevin Ellis, Suhas Lohit, Michael J. Jones, Moitreya Chatterjee,
- Abstract要約: ProgGenは、ニューロシンボリックで人間の解釈可能な状態のセットを使用して、ビデオのダイナミックスを表現する。
提案手法は,2つの挑戦環境における映像フレーム予測の課題において,競合する手法よりも優れていた。
- 参考スコア(独自算出の注目度): 21.11346129620144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of estimating the world model describing the dynamics of a real world process assumes immense importance for anticipating and preparing for future outcomes. For applications such as video surveillance, robotics applications, autonomous driving, etc. this objective entails synthesizing plausible visual futures, given a few frames of a video to set the visual context. Towards this end, we propose ProgGen, which undertakes the task of video frame prediction by representing the dynamics of the video using a set of neuro-symbolic, human-interpretable set of states (one per frame) by leveraging the inductive biases of Large (Vision) Language Models (LLM/VLM). In particular, ProgGen utilizes LLM/VLM to synthesize programs: (i) to estimate the states of the video, given the visual context (i.e. the frames); (ii) to predict the states corresponding to future time steps by estimating the transition dynamics; (iii) to render the predicted states as visual RGB-frames. Empirical evaluations reveal that our proposed method outperforms competing techniques at the task of video frame prediction in two challenging environments: (i) PhyWorld (ii) Cart Pole. Additionally, ProgGen permits counter-factual reasoning and interpretable video generation attesting to its effectiveness and generalizability for video generation tasks.
- Abstract(参考訳): 実世界のプロセスのダイナミクスを記述した世界モデルを推定するタスクは、将来の成果を予測および準備するために非常に重要であると仮定する。
ビデオ監視、ロボティクスアプリケーション、自動運転などのアプリケーションでは、この目的には、視覚的コンテキストを設定するためのビデオのいくつかのフレームが与えられるため、可視的な未来を合成する必要がある。
本稿では,大言語モデル(LLM/VLM)の帰納バイアスを利用して,映像のダイナミックスを表現することによって映像フレーム予測のタスクを実行するProgGenを提案する。
特に、ProgGenはLLM/VLMを使ってプログラムを合成する。
i) 映像の状態(すなわちフレーム)を視覚的文脈から推定すること。
(二)遷移力学を推定して将来の時間ステップに対応する状態を予測すること。
(iii)予測された状態を視覚的RGBフレームとしてレンダリングする。
実験による評価の結果,提案手法は,2つの課題のある環境での映像フレーム予測作業において,競合技術よりも優れていることがわかった。
(i)PhyWorld
(二)キャットポール。
さらに、ProgGenは、ビデオ生成タスクの有効性と一般化性を証明する、反実的推論と解釈可能なビデオ生成を許可する。
関連論文リスト
- Object-Centric Image to Video Generation with Language Guidance [17.50161162624179]
TextOCVPは、テキスト記述によってガイドされる画像からビデオ生成のためのオブジェクト中心モデルである。
提案手法は,テキストガイダンスを取り入れたオブジェクトのダイナミクスとインタラクションを共同でモデル化することにより,正確かつ制御可能な予測を導出する。
論文 参考訳(メタデータ) (2025-02-17T10:46:47Z) - EVA: An Embodied World Model for Future Video Anticipation [42.937348053592636]
複雑なビデオ予測を4つのメタタスクに分解し、世界モデルがこの問題をよりきめ細かな方法で処理できるようにする。
本稿では,Embodied Video Precipation Benchmark (EVA-Bench) という新しいベンチマークを導入する。
本稿では,映像理解と生成を目的とした統合フレームワークであるEmbodied Video Precipator (EVA)を提案する。
論文 参考訳(メタデータ) (2024-10-20T18:24:00Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Object-Centric Video Prediction via Decoupling of Object Dynamics and
Interactions [27.112210225969733]
本稿では,映像系列の構造を抽出し,オブジェクトのダイナミックスやインタラクションを視覚的観察からモデル化する,オブジェクト中心のビデオ予測タスクのための新しいフレームワークを提案する。
そこで本研究では,時間的ダイナミクスとオブジェクトの相互作用の処理を分離した2つのオブジェクト中心ビデオ予測器(OCVP)トランスフォーマモジュールを提案する。
実験では、OCVP予測器を用いたオブジェクト中心の予測フレームワークが、2つの異なるデータセットにおけるオブジェクト非依存のビデオ予測モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-23T08:29:26Z) - Learning Universal Policies via Text-Guided Video Generation [179.6347119101618]
人工知能の目標は、幅広いタスクを解決できるエージェントを構築することである。
テキスト誘導画像合成の最近の進歩は、複雑な新規画像を生成する印象的な能力を持つモデルを生み出している。
このようなツールがより汎用的なエージェントの構築に利用できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-01-31T21:28:13Z) - Motion and Context-Aware Audio-Visual Conditioned Video Prediction [58.9467115916639]
視覚条件付き映像予測を動作モデルと外観モデルに分離する。
マルチモーダルモーション推定は、音声と動きの相関に基づいて将来の光の流れを予測する。
本研究では,グローバルな出現状況の減少に対処する文脈認識の改良を提案する。
論文 参考訳(メタデータ) (2022-12-09T05:57:46Z) - Mutual Information Based Method for Unsupervised Disentanglement of
Video Representation [0.0]
ビデオ予測モデルは、マニキュア計画、ヘルスケア、自律ナビゲーション、シミュレーションに将来的な応用を見出した。
将来のフレーム生成における大きな課題の1つは、視覚データの高次元性によるものである。
我々は,高次元映像フレームの予測作業を削減する,相互情報予測自動エンコーダフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T13:16:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。