論文の概要: ConsID-Gen: View-Consistent and Identity-Preserving Image-to-Video Generation
- arxiv url: http://arxiv.org/abs/2602.10113v1
- Date: Tue, 10 Feb 2026 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.773515
- Title: ConsID-Gen: View-Consistent and Identity-Preserving Image-to-Video Generation
- Title(参考訳): ConsID-Gen:ビュー一貫性とアイデンティティ保存画像生成
- Authors: Mingyang Wu, Ashirbad Mishra, Soumik Dey, Shuo Xing, Naveen Ravipati, Hansi Wu, Binbin Li, Zhengzhong Tu,
- Abstract要約: 画像対ビデオ生成(I2V)は、静的画像をテキスト命令に従って時間的に一貫性のあるビデオシーケンスに変換する。
既存のI2Vパイプラインは、しばしば外観のドリフトと幾何学的歪みに悩まされる。
本稿では、第1フレームを非表示の補助ビューで拡張するビュー支援I2V生成フレームワークであるConsID-Genを提案する。
- 参考スコア(独自算出の注目度): 14.141157176094737
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image-to-Video generation (I2V) animates a static image into a temporally coherent video sequence following textual instructions, yet preserving fine-grained object identity under changing viewpoints remains a persistent challenge. Unlike text-to-video models, existing I2V pipelines often suffer from appearance drift and geometric distortion, artifacts we attribute to the sparsity of single-view 2D observations and weak cross-modal alignment. Here we address this problem from both data and model perspectives. First, we curate ConsIDVid, a large-scale object-centric dataset built with a scalable pipeline for high-quality, temporally aligned videos, and establish ConsIDVid-Bench, where we present a novel benchmarking and evaluation framework for multi-view consistency using metrics sensitive to subtle geometric and appearance deviations. We further propose ConsID-Gen, a view-assisted I2V generation framework that augments the first frame with unposed auxiliary views and fuses semantic and structural cues via a dual-stream visual-geometric encoder as well as a text-visual connector, yielding unified conditioning for a Diffusion Transformer backbone. Experiments across ConsIDVid-Bench demonstrate that ConsID-Gen consistently outperforms in multiple metrics, with the best overall performance surpassing leading video generation models like Wan2.1 and HunyuanVideo, delivering superior identity fidelity and temporal coherence under challenging real-world scenarios. We will release our model and dataset at https://myangwu.github.io/ConsID-Gen.
- Abstract(参考訳): I2V(Image-to-Video Generation)は、テキストによる指示に従って静的な画像を時間的に一貫性のあるビデオシーケンスにアンペアリングする。
テキスト・ツー・ビデオ・モデルとは異なり、既存のI2Vパイプラインは外観のドリフトや幾何学的歪みに悩まされることが多い。
ここでは、データとモデルの両方の観点からこの問題に対処する。
まず、高品質で時間的に整合したビデオのためのスケーラブルなパイプラインで構築された大規模オブジェクト中心のデータセットであるConsIDVidをキュレートし、またConsIDVid-Benchを確立する。
さらに、ビュー支援型I2V生成フレームワークであるConsID-Genを提案する。このフレームワークは、2ストリームのビジュアル・ジオメトリ・エンコーダとテキスト・ビジュアル・コネクタを介し、第1フレームを未提案の補助ビューで拡張し、意味と構造を融合し、ディフュージョン・トランスフォーマーのバックボーンに統一的な条件付けを与える。
ConsIDVid-Benchによる実験では、ConsID-GenはWan2.1やHunyuanVideoといった主要なビデオ生成モデルよりも優れたパフォーマンスを示し、現実のシナリオにおいて優れたアイデンティティの忠実さと時間的一貫性を提供する。
モデルとデータセットはhttps://myangwu.github.io/ConsID-Gen.orgで公開します。
関連論文リスト
- MV-S2V: Multi-View Subject-Consistent Video Generation [14.479120381560621]
本稿では,Multi-View S2V (MV-S2V) タスクを提案する。
MV-S2Vは、複数の参照ビューからビデオを合成し、3Dレベルの被写体一貫性を強制する。
本フレームワークは,マルチビュー参照画像と高品質な視覚出力により,優れた3次元オブジェクト整合性を実現する。
論文 参考訳(メタデータ) (2026-01-25T09:02:33Z) - MVGGT: Multimodal Visual Geometry Grounded Transformer for Multiview 3D Referring Expression Segmentation [59.75554954111619]
マルチビュー3D参照表現(MV-3DRES)を導入し、モデルがシーン構造を復元し、参照対象をスパースなマルチビュー画像から直接セグメント化する必要がある。
本稿では,言語情報をスパースビュー幾何学的推論に組み込む,効率的なエンドツーエンドフレームワークであるMultimodal Visual Geometry Grounded Transformer (MVGGT)を提案する。
実験により、MVGGTは最初の強力なベースラインを確立し、高精度かつ高速な推論を達成し、既存の選択肢よりも優れていることが示された。
論文 参考訳(メタデータ) (2026-01-11T11:44:07Z) - DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer [21.788582116033684]
Video Face Swapping (VFS)は、ターゲットのビデオにソースIDをシームレスに注入する必要がある。
既存の方法は、時間的一貫性を維持しながら、アイデンティティの類似性と属性の保存を維持するのに苦労する。
本稿では,画像顔スワッピングの優位性をビデオ領域にシームレスに転送するための包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-04T08:07:11Z) - InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - AIGCBench: Comprehensive Evaluation of Image-to-Video Content Generated
by AI [1.1035305628305816]
本稿では,様々なビデオ生成タスクを評価するために設計された,先駆的な総合ベンチマークであるAIGCBenchを紹介する。
等価条件下で異なる最先端アルゴリズムを評価する、多様なオープンドメインの画像テキストデータセット。
我々は、リッチテキストプロンプトを作成するために、新しいテキストコンバインダーとGPT-4を使用し、高度なテキスト・ツー・イメージモデルを用いて画像を生成する。
論文 参考訳(メタデータ) (2024-01-03T10:08:40Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。