Fugu-MT 論文翻訳(概要): EVA: An Embodied World Model for Future Video Anticipation

論文の概要: EVA: An Embodied World Model for Future Video Anticipation

arxiv url: http://arxiv.org/abs/2410.15461v1
Date: Sun, 20 Oct 2024 18:24:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.115075
Title: EVA: An Embodied World Model for Future Video Anticipation
Title（参考訳）: EVA:未来のビデオ予測のための身体的世界モデル
Authors: Xiaowei Chi, Hengyuan Zhang, Chun-Kai Fan, Xingqun Qi, Rongyu Zhang, Anthony Chen, Chi-min Chan, Wei Xue, Wenhan Luo, Shanghang Zhang, Yike Guo,
Abstract要約: 複雑なビデオ予測を4つのメタタスクに分解し、世界モデルがこの問題をよりきめ細かな方法で処理できるようにする。本稿では,Embodied Video Precipation Benchmark (EVA-Bench) という新しいベンチマークを導入する。本稿では,映像理解と生成を目的とした統合フレームワークであるEmbodied Video Precipator (EVA)を提案する。
参考スコア（独自算出の注目度）: 42.937348053592636
License: http://creativecommons.org/licenses/by/4.0/
Abstract: World models integrate raw data from various modalities, such as images and language to simulate comprehensive interactions in the world, thereby displaying crucial roles in fields like mixed reality and robotics. Yet, applying the world model for accurate video prediction is quite challenging due to the complex and dynamic intentions of the various scenes in practice. In this paper, inspired by the human rethinking process, we decompose the complex video prediction into four meta-tasks that enable the world model to handle this issue in a more fine-grained manner. Alongside these tasks, we introduce a new benchmark named Embodied Video Anticipation Benchmark (EVA-Bench) to provide a well-rounded evaluation. EVA-Bench focused on evaluating the video prediction ability of human and robot actions, presenting significant challenges for both the language model and the generation model. Targeting embodied video prediction, we propose the Embodied Video Anticipator (EVA), a unified framework aiming at video understanding and generation. EVA integrates a video generation model with a visual language model, effectively combining reasoning capabilities with high-quality generation. Moreover, to enhance the generalization of our framework, we tailor-designed a multi-stage pretraining paradigm that adaptatively ensembles LoRA to produce high-fidelity results. Extensive experiments on EVA-Bench highlight the potential of EVA to significantly improve performance in embodied scenes, paving the way for large-scale pre-trained models in real-world prediction tasks.
Abstract（参考訳）: 世界モデルは、画像や言語などの様々なモダリティの生データを統合して、世界の包括的な相互作用をシミュレートし、混合現実やロボット工学のような分野において重要な役割を担っている。しかし、実際の様々なシーンの複雑な動的意図のため、正確な映像予測に世界モデルを適用することは極めて困難である。本稿では,人間の再考プロセスに触発されて,複雑な映像予測を4つのメタタスクに分解し,世界モデルによるこの問題のよりきめ細かい処理を可能にする。これらのタスクに加えて、Embodied Video Precipation Benchmark (EVA-Bench) という新しいベンチマークを導入し、より周知な評価を提供する。 EVA-Benchは、人間とロボットのアクションのビデオ予測能力を評価し、言語モデルと生成モデルの両方に重大な課題を提示した。本稿では,映像理解と生成を目的とした統合フレームワークであるEmbodied Videocipcipator (EVA)を提案する。 EVAはビデオ生成モデルを視覚言語モデルに統合し、推論能力と高品質な生成を効果的に組み合わせる。さらに,フレームワークの一般化を促進するために,LoRAを適応的に組み込んだ多段階事前学習パラダイムを設計した。 EVA-Benchの大規模な実験は、実世界の予測タスクにおける大規模な事前学習モデルへの道を開くことで、EVAがエンボディされたシーンのパフォーマンスを大幅に改善する可能性を強調している。

関連論文リスト

From Generation to Generalization: Emergent Few-Shot Learning in Video Diffusion Models [65.0487600936788]
ビデオ拡散モデル(VDM)は高品質なコンテンツを合成できる強力な生成ツールとして登場した。我々は、VDMが自然に構造化された表現を探索し、視覚世界を暗黙的に理解することを主張する。提案手法は,各タスクを視覚遷移に変換し,短い入力シーケンス上でLoRA重みのトレーニングを可能にする。
論文参考訳（メタデータ） (2025-06-08T20:52:34Z)
Dimension-Reduction Attack! Video Generative Models are Experts on Controllable Image Synthesis [12.160537328404622]
textttDRA-Ctrlはリソース集約型ビデオモデルの再利用に関する新たな洞察を提供する。 textttDRA-Ctrlは、視覚的モダリティにまたがる将来の統一された生成モデルの基礎を築いている。
論文参考訳（メタデータ） (2025-05-29T10:34:45Z)
Programmatic Video Prediction Using Large Language Models [21.11346129620144]
ProgGenは、ニューロシンボリックで人間の解釈可能な状態のセットを使用して、ビデオのダイナミックスを表現する。提案手法は,2つの挑戦環境における映像フレーム予測の課題において,競合する手法よりも優れていた。
論文参考訳（メタデータ） (2025-05-20T22:17:47Z)
Vid2World: Crafting Video Diffusion Models to Interactive World Models [38.270098691244314]
Vid2Worldは、トレーニング済みのビデオ拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチである。自己回帰生成を可能にするために、そのアーキテクチャとトレーニング目標を構築することにより、事前訓練されたビデオ拡散モデルのカジュアル化を行う。対話型世界モデルにおける行動制御性を高めるための因果的行動誘導機構を導入する。
論文参考訳（メタデータ） (2025-05-20T13:41:45Z)
AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM [1.7051307941715268]
ビデオ異常検出(VAD)は、コンピュータビジョンにおけるビデオ分析と監視に不可欠である。既存のVADモデルは学習された通常のパターンに依存しており、多様な環境に適用することは困難である。本研究では,C-VAD技術とAnyAnomalyモデルを提案する。
論文参考訳（メタデータ） (2025-03-06T14:52:34Z)
Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文参考訳（メタデータ） (2025-02-10T14:49:09Z)
Video Creation by Demonstration [59.389591010842636]
我々は、条件付き将来のフレーム予測によってラベルなしビデオから学習する自己教師型トレーニングアプローチである$delta$-Diffusionを提案する。映像基盤モデルと外観ボトルネック設計を併用して,実演映像から動作遅延を抽出し,生成プロセスの条件付けを行う。実証的に、$delta$-Diffusionは人間の好みと大規模マシン評価の両方の観点から、関連するベースラインを上回っている。
論文参考訳（メタデータ） (2024-12-12T18:41:20Z)
Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文参考訳（メタデータ） (2024-12-03T17:44:23Z)
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文参考訳（メタデータ） (2024-11-14T03:13:26Z)
WorldSimBench: Towards Video Generation Models as World Simulators [79.69709361730865]
我々は、予測モデルの機能を階層に分類し、WorldSimBenchと呼ばれる2つの評価フレームワークを提案することにより、World Simulatorの評価の第一歩を踏み出す。 WorldSimBenchにはExplicit Perceptual EvaluationとImplicit Manipulative Evaluationが含まれている。我々の総合的な評価は、ビデオ生成モデルのさらなる革新を促進する重要な洞察を与え、World Simulatorsをエンボディされた人工知能への重要な進歩と位置づけている。
論文参考訳（メタデータ） (2024-10-23T17:56:11Z)
DrivingDojo Dataset: Advancing Interactive and Knowledge-Enriched Driving World Model [65.43473733967038]
私たちは、複雑な駆動ダイナミクスを備えたインタラクティブな世界モデルのトレーニング用に作られた最初のデータセットであるDrivingDojoを紹介します。私たちのデータセットには、完全な運転操作、多様なマルチエージェント・インタープレイ、豊富なオープンワールド運転知識を備えたビデオクリップが含まれています。
論文参考訳（メタデータ） (2024-10-14T17:19:23Z)
VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文参考訳（メタデータ） (2024-06-05T17:53:55Z)
iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。 iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文参考訳（メタデータ） (2024-05-24T05:29:12Z)
Veagle: Advancements in Multimodal Representation Learning [0.0]
本稿では,既存モデルのマルチモーダル能力を向上するための新しいアプローチを提案する。提案したモデルであるVeagleは、以前の作品の成功と洞察にインスパイアされたユニークなメカニズムを取り入れています。以上の結果から,Veagleは既存のモデルよりも優れた性能を示し,性能は5-6%向上した。
論文参考訳（メタデータ） (2024-01-18T12:45:25Z)
Pre-training Contextualized World Models with In-the-wild Videos for Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文参考訳（メタデータ） (2023-05-29T14:29:12Z)
HARP: Autoregressive Latent Video Prediction with High-Fidelity Image Generator [90.74663948713615]
我々は,高忠実度未来のフレームを予測可能な自己回帰遅延映像予測モデルを訓練する。既存のモデルに最小限の修正を加えて高解像度(256x256)ビデオを作成する。
論文参考訳（メタデータ） (2022-09-15T08:41:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。