Fugu-MT 論文翻訳(概要): ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation

論文の概要: ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation

arxiv url: http://arxiv.org/abs/2402.04324v1
Date: Tue, 6 Feb 2024 19:08:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-08 18:19:58.889961
Title: ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation
Title（参考訳）: ConsistI2V:画像対ビデオ生成のための視覚的一貫性の強化
Authors: Weiming Ren, Harry Yang, Ge Zhang, Cong Wei, Xinrun Du, Stephen Huang, Wenhu Chen
Abstract要約: Image-to-Video(I2V)生成は、初期フレーム(テキストプロンプトの他)を使用してビデオシーケンスを作成することを目的としている。既存の方法はしばしば、第1フレームから主題、背景、スタイルの整合性を維持するのに苦労する。本稿では,I2V生成における視覚的一貫性を高める拡散法であるConsistI2Vを提案する。
参考スコア（独自算出の注目度）: 39.80627779006717
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Image-to-video (I2V) generation aims to use the initial frame (alongside a text prompt) to create a video sequence. A grand challenge in I2V generation is to maintain visual consistency throughout the video: existing methods often struggle to preserve the integrity of the subject, background, and style from the first frame, as well as ensure a fluid and logical progression within the video narrative. To mitigate these issues, we propose ConsistI2V, a diffusion-based method to enhance visual consistency for I2V generation. Specifically, we introduce (1) spatiotemporal attention over the first frame to maintain spatial and motion consistency, (2) noise initialization from the low-frequency band of the first frame to enhance layout consistency. These two approaches enable ConsistI2V to generate highly consistent videos. We also extend the proposed approaches to show their potential to improve consistency in auto-regressive long video generation and camera motion control. To verify the effectiveness of our method, we propose I2V-Bench, a comprehensive evaluation benchmark for I2V generation. Our automatic and human evaluation results demonstrate the superiority of ConsistI2V over existing methods.
Abstract（参考訳）: Image-to-Video(I2V)生成は、初期フレーム(テキストプロンプトの他)を使用してビデオシーケンスを作成することを目的としている。 i2v世代における大きな課題は、ビデオ全体を通して視覚的な一貫性を維持することである: 既存の方法はしばしば、第一フレームから主題、背景、スタイルの整合性を保つのに苦労し、ビデオストーリー内で流動的で論理的に進歩することを保証する。これらの問題を緩和するために,I2V生成の視覚的一貫性を高める拡散法であるConsistI2Vを提案する。具体的には,(1)空間と運動の一貫性を維持するため,(2)第1フレームの低周波帯域からのノイズ初期化に着目し,レイアウトの一貫性を高める。これらの2つのアプローチにより、ConsistI2Vは高度に一貫したビデオを生成することができる。また、提案手法を拡張して、自動回帰長ビデオ生成とカメラモーション制御における一貫性向上の可能性を示す。本手法の有効性を検証するため,I2V生成のための総合評価ベンチマークであるI2V-Benchを提案する。自動評価と人間評価の結果から,既存の方法よりも consisti2v の方が優れていることが示された。

関連論文リスト

Encapsulated Composition of Text-to-Image and Text-to-Video Models for High-Quality Video Synthesis [14.980220974022982]
本稿では,T2IモデルとT2Vモデルを構成するトレーニング不要なカプセル化ビデオ合成装置であるEVSを紹介し,視覚的忠実度と動きの滑らかさを両立させる。提案手法は,低品質ビデオフレームを改良するために,よく訓練された拡散ベースT2Iモデルを用いる。また、一貫した運動力学を保証するためにT2Vバックボーンを用いる。
論文参考訳（メタデータ） (2025-07-18T08:59:02Z)
Enhancing Motion Dynamics of Image-to-Video Models via Adaptive Low-Pass Guidance [70.12690940725092]
アダプティブローパスガイダンス(ALG)は、よりダイナミックなビデオを生成するためのI2Vモデルサンプリング手順の簡単な修正である。 VBench-I2Vテストスイートでは、ALGはビデオ品質や画像の忠実度を大幅に低下させることなく、ダイナミック度の平均36%の改善を実現している。
論文参考訳（メタデータ） (2025-06-10T05:23:46Z)
SkyReels-A2: Compose Anything in Video Diffusion Transformers [27.324119455991926]
本稿では、任意の視覚要素を合成ビデオに組み込むことができる制御可能なビデオ生成フレームワークSkyReels-A2を提案する。このタスク要素をビデオ(E2V)と呼び、各参照要素の忠実さを保ち、シーンのコヒーレントな構成を確保し、自然な出力を達成することが主な課題である。本稿では,多要素表現を生成プロセスに注入し,要素固有の一貫性とグローバルコヒーレンスとテキストアライメントのバランスをとる,新しい画像-テキスト共同埋め込みモデルを提案する。
論文参考訳（メタデータ） (2025-04-03T09:50:50Z)
Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-14T21:53:11Z)
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text [58.49820807662246]
本稿では,80,240,600,1200以上のフレームをスムーズな遷移で自動回帰的に生成するStreamingT2Vを紹介する。私たちのコードは、https://github.com/Picsart-AI-Research/StreamingT2V.comで利用可能です。
論文参考訳（メタデータ） (2024-03-21T18:27:29Z)
VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis [18.806249040835624]
本稿では,時間的ダイナミクスの制御を改善するために,時間的時間的看護(GTN, Generative Temporal Nursing, GTN)の概念を導入する。提案手法が既存のオープンソースT2Vモデルよりも長めで視覚的に魅力的なビデオを生成する場合の優位性を実験的に示す。
論文参考訳（メタデータ） (2024-03-20T10:58:58Z)
Motion-I2V: Consistent and Controllable Image-to-Video Generation with Explicit Motion Modeling [62.19142543520805]
Motion-I2Vは、一貫した制御可能な画像対ビデオ生成のためのフレームワークである。 I2Vを2段階に分解し、明示的なモーションモデリングを行う。 Motion-I2Vの第2ステージは、ゼロショットビデオからビデオへの変換を自然にサポートしている。
論文参考訳（メタデータ） (2024-01-29T09:06:43Z)
E2HQV: High-Quality Video Generation from Event Camera via Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文参考訳（メタデータ） (2024-01-16T05:10:50Z)
I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。 I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文参考訳（メタデータ） (2023-12-27T19:11:50Z)
ConditionVideo: Training-Free Condition-Guided Text-to-Video Generation [33.37279673304]
提案する条件, 映像, 入力テキストに基づいて, テキスト・ビデオ生成のためのトレーニング不要なアプローチである ConditionVideo を紹介する。 ConditionVideoはランダムノイズやシーンビデオからリアルなダイナミックビデオを生成する。提案手法は,フレームの整合性,クリップスコア,条件精度において優れた性能を示し,他の比較手法よりも優れていた。
論文参考訳（メタデータ） (2023-10-11T17:46:28Z)
Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文参考訳（メタデータ） (2023-05-23T09:03:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。