論文の概要: Dynamic-I2V: Exploring Image-to-Video Generation Models via Multimodal LLM
- arxiv url: http://arxiv.org/abs/2505.19901v3
- Date: Tue, 03 Jun 2025 07:32:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 16:31:03.636206
- Title: Dynamic-I2V: Exploring Image-to-Video Generation Models via Multimodal LLM
- Title(参考訳): Dynamic-I2V:マルチモーダルLCMによる画像・映像生成モデルの探索
- Authors: Peng Liu, Xiaoming Ren, Fengkai Liu, Qingsong Xie, Quanlong Zheng, Yanhao Zhang, Haonan Lu, Yujiu Yang,
- Abstract要約: 拡散トランスフォーマー(DiT)アーキテクチャの視覚的条件とテキスト的条件を協調的に符号化するために,MLLM(Multimodal Large Language Models)を統合する革新的なフレームワークであるDynamic-I2Vを提案する。
画像とビデオの生成において、Dynamic-I2Vは最先端のパフォーマンスを実現しており、特に42.5%、7.9%、11.8%のダイナミックレンジ、制御性、品質が大幅に向上している。
- 参考スコア(独自算出の注目度): 34.23005193437701
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in image-to-video (I2V) generation have shown promising performance in conventional scenarios. However, these methods still encounter significant challenges when dealing with complex scenes that require a deep understanding of nuanced motion and intricate object-action relationships. To address these challenges, we present Dynamic-I2V, an innovative framework that integrates Multimodal Large Language Models (MLLMs) to jointly encode visual and textual conditions for a diffusion transformer (DiT) architecture. By leveraging the advanced multimodal understanding capabilities of MLLMs, our model significantly improves motion controllability and temporal coherence in synthesized videos. The inherent multimodality of Dynamic-I2V further enables flexible support for diverse conditional inputs, extending its applicability to various downstream generation tasks. Through systematic analysis, we identify a critical limitation in current I2V benchmarks: a significant bias towards favoring low-dynamic videos, stemming from an inadequate balance between motion complexity and visual quality metrics. To resolve this evaluation gap, we propose DIVE - a novel assessment benchmark specifically designed for comprehensive dynamic quality measurement in I2V generation. In conclusion, extensive quantitative and qualitative experiments confirm that Dynamic-I2V attains state-of-the-art performance in image-to-video generation, particularly revealing significant improvements of 42.5%, 7.9%, and 11.8% in dynamic range, controllability, and quality, respectively, as assessed by the DIVE metric in comparison to existing methods.
- Abstract(参考訳): I2V(Image-to-Video)生成の最近の進歩は、従来のシナリオにおいて有望な性能を示している。
しかし、これらの手法は複雑なシーンを扱う際にも大きな課題に直面する。
これらの課題に対処するため,拡散トランスフォーマー(DiT)アーキテクチャの視覚的およびテキスト的条件を共同で符号化するために,MLLM(Multimodal Large Language Models)を統合する革新的なフレームワークであるDynamic-I2Vを提案する。
MLLMの高度なマルチモーダル理解機能を活用することで、合成ビデオの動作制御性と時間的コヒーレンスを大幅に改善する。
Dynamic-I2Vの固有のマルチモーダルは、様々な条件入力を柔軟にサポートし、様々なダウンストリーム生成タスクにその適用範囲を広げる。
組織的な分析を通じて、我々は現在のI2Vベンチマークにおける重要な限界を識別する: 動きの複雑さと視覚的品質のメトリクスのバランスが不十分なことから、低ダイナミックなビデオを支持するための重要なバイアスである。
この評価ギャップを解決するために、我々は、I2V生成における総合的動的品質測定のために設計された新しい評価ベンチマークであるDIVEを提案する。
結論として、ダイナミックI2Vは、既存の方法と比較してDIVE測定値で評価されるように、ダイナミックレンジ、制御可能性、品質において、特に42.5%、7.9%、11.8%の大幅な改善が見られた。
関連論文リスト
- OmniMotion-X: Versatile Multimodal Whole-Body Motion Generation [52.579531290307926]
本稿では,全身動作生成のための汎用フレームワークであるOmniMotion-Xを紹介する。
OmniMotion-Xは、テキスト・トゥ・モーション、音楽・トゥ・ダンス、音声・トゥ・ジェスチャなど、多様なマルチモーダルタスクを効率的にサポートする。
高品質なマルチモーダルトレーニングを実現するため,これまでで最大の統合マルチモーダルモーションデータセットであるOmniMoCap-Xを構築した。
論文 参考訳(メタデータ) (2025-10-22T17:25:33Z) - MIORe & VAR-MIORe: Benchmarks to Push the Boundaries of Restoration [53.180212987726556]
動作回復ベンチマークの限界に対処する2つの新しいマルチタスクデータセットであるMIOReとVAR-MIOReを紹介する。
私たちのデータセットは、複雑なエゴカメラの動き、動的マルチオブジェクト相互作用、深さ依存のぼかし効果など、幅広い動きシナリオを捉えています。
論文 参考訳(メタデータ) (2025-09-08T15:34:31Z) - Kwai Keye-VL 1.5 Technical Report [91.07838286692815]
本稿では、ビデオ理解における根本的な課題を3つの重要なイノベーションを通じて解決するKeye-VL-1.5を紹介する。
まず,フレーム間の類似性に基づいて動的に計算資源を割り当てるSlow-Fastビデオ符号化方式を提案する。
次に,モデルのコンテキスト長を8Kから128Kまで体系的に拡張する4段階事前学習手法を提案する。
第3に、推論の強化と人間の嗜好の整合性に焦点を当てた総合的な後学習パイプラインを開発する。
論文 参考訳(メタデータ) (2025-09-01T15:46:58Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Toward Rich Video Human-Motion2D Generation [16.58311138197227]
本稿では,15万本のビデオシーケンスからなる大規模リッチビデオモーション2Dデータセット(Motion2D-Video-150K)を紹介する。
Motion2D-Video-150Kは多様な単一文字のバランスの取れた分布を特徴としている。
拡散型リッチビデオモーション2D生成モデル(RVHM2D)を提案する。
論文 参考訳(メタデータ) (2025-06-17T11:45:33Z) - Seedance 1.0: Exploring the Boundaries of Video Generation Models [71.26796999246068]
Seedance 1.0は高性能で推論効率の良いビデオ基盤生成モデルである。
精度と意味のあるビデオキャプションを付加したマルチソースキュレーションデータを統合する。
Seedance 1.0は1080p解像度で5秒のビデオを生成することができる。
論文 参考訳(メタデータ) (2025-06-10T17:56:11Z) - Enhancing Motion Dynamics of Image-to-Video Models via Adaptive Low-Pass Guidance [70.12690940725092]
アダプティブローパスガイダンス(ALG)は、よりダイナミックなビデオを生成するためのI2Vモデルサンプリング手順の簡単な修正である。
VBench-I2Vテストスイートでは、ALGはビデオ品質や画像の忠実度を大幅に低下させることなく、ダイナミック度の平均36%の改善を実現している。
論文 参考訳(メタデータ) (2025-06-10T05:23:46Z) - DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - Extrapolating and Decoupling Image-to-Video Generation Models: Motion Modeling is Easier Than You Think [24.308538128761985]
Image-to-Video(I2V)生成は、所定の画像と条件(テキストなど)に応じてビデオクリップを合成することを目的としている。
このタスクの主な課題は、画像の本来の外観を維持しながら、自然の動きを同時に生成することである。
本稿では,I2V領域にモデルマージ技術を導入した新しい外挿デカップリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-02T16:06:16Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping [45.584695790489484]
LVLM(Large Vision-Language Models)は、マルチモーダルタスクにまたがる顕著な機能を示す。
VLB(Vision-Language Bootstrapping)と呼ばれる動的マルチモーダル評価プロトコルを導入する。
VLBは、データ汚染の低減と柔軟性のある複雑さを伴うLVLMの堅牢で包括的な評価を提供する。
論文 参考訳(メタデータ) (2024-10-11T10:33:51Z) - Evaluation of Text-to-Video Generation Models: A Dynamics Perspective [94.2662603491163]
既存の評価プロトコルは主に時間的一貫性とコンテンツの連続性に焦点を当てている。
本稿では,T2Vモデルを評価するための動的次元に着目した効果的な評価プロトコルDEVILを提案する。
論文 参考訳(メタデータ) (2024-07-01T08:51:22Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - DiverseMotion: Towards Diverse Human Motion Generation via Discrete
Diffusion [70.33381660741861]
テキスト記述に基づく高品質な人間の動作を合成するための新しいアプローチであるDiverseMotionを提案する。
我々のDiverseMotionは、最先端のモーション品質と競争力の多様性を達成できることを示す。
論文 参考訳(メタデータ) (2023-09-04T05:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。