Fugu-MT 論文翻訳(概要): Phantom: Subject-consistent video generation via cross-modal alignment

論文の概要: Phantom: Subject-consistent video generation via cross-modal alignment

arxiv url: http://arxiv.org/abs/2502.11079v2
Date: Thu, 10 Apr 2025 10:24:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-11 15:12:49.190931
Title: Phantom: Subject-consistent video generation via cross-modal alignment
Title（参考訳）: Phantom:クロスモーダルアライメントによる被写体一貫性ビデオ生成
Authors: Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Gen Li, Siyu Zhou, Qian He, Xinglong Wu,
Abstract要約: シングルオブジェクトとマルチオブジェクトの両方の参照に統一されたビデオ生成フレームワークを提案する。提案手法は,画像コンテンツのリークや複数オブジェクトの混同といった問題に対処しながら,高忠実度映像生成を実現する。
参考スコア（独自算出の注目度）: 16.777805813950486
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The continuous development of foundational models for video generation is evolving into various applications, with subject-consistent video generation still in the exploratory stage. We refer to this as Subject-to-Video, which extracts subject elements from reference images and generates subject-consistent videos following textual instructions. We believe that the essence of subject-to-video lies in balancing the dual-modal prompts of text and image, thereby deeply and simultaneously aligning both text and visual content. To this end, we propose Phantom, a unified video generation framework for both single- and multi-subject references. Building on existing text-to-video and image-to-video architectures, we redesign the joint text-image injection model and drive it to learn cross-modal alignment via text-image-video triplet data. The proposed method achieves high-fidelity subject-consistent video generation while addressing issues of image content leakage and multi-subject confusion. Evaluation results indicate that our method outperforms other state-of-the-art closed-source commercial solutions. In particular, we emphasize subject consistency in human generation, covering existing ID-preserving video generation while offering enhanced advantages.
Abstract（参考訳）: ビデオ生成の基礎モデルの継続的な開発は様々な応用に発展しており、まだ探索段階にある。我々はこれを、参照画像から被写体要素を抽出し、テキストによる指示に従って被写体一貫性のある映像を生成する「被写体対ビデオ」と呼ぶ。テキストと画像の二重モーダルなプロンプトのバランスが、テキストと視覚コンテンツの両方を深く同時に調整することの本質であると我々は信じている。この目的のために,シングルオブジェクトおよびマルチオブジェクト参照用の統合ビデオ生成フレームワークであるPhantomを提案する。既存のテキスト・ツー・ビデオ・アーキテクチャーと画像・ビデオ・アーキテクチャーをベースとして、私たちは共同のテキスト・イメージ・インジェクション・モデルを再設計し、テキスト・イメージ・ビデオ・トリプルト・データを用いて、モーダル・アライメントを学習する。提案手法は,画像コンテンツのリークや複数オブジェクトの混同といった問題に対処しながら,高忠実度映像生成を実現する。評価の結果,提案手法は他の最先端のクローズドソース・商用ソリューションよりも優れていた。特に、既存のID保存ビデオ生成をカバーしつつ、強化されたアドバンテージを提供しながら、人間の生成における主観的一貫性を強調した。

関連論文リスト

ContextAnyone: Context-Aware Diffusion for Character-Consistent Text-to-Video Generation [36.29956463871403]
テキスト・ツー・ビデオ(T2V)生成は急速に進歩しているが、シーン間で一貫した文字のアイデンティティを維持することは大きな課題である。テキストと単一の参照画像から文字一貫性のある映像を生成するコンテキスト対応拡散フレームワークである textbfContextAnyone を提案する。提案手法は,参照画像を共同で再構成し,新しいビデオフレームを生成する。
論文参考訳（メタデータ） (2025-12-08T09:12:18Z)
BindWeave: Subject-Consistent Video Generation via Cross-Modal Integration [56.98981194478512]
本稿では,幅広いテーマ・ツー・ビデオシナリオを扱う統一フレームワークを提案する。 MLLM-DiTフレームワークは,事前訓練されたマルチモーダルな大規模言語モデルで,基底エンティティに対して深い相互モーダル推論を行う。 OpenS2Vベンチマークの実験により、本手法は、生成ビデオにおける主観的整合性、自然性、テキスト関連性において優れた性能を実現することを示した。
論文参考訳（メタデータ） (2025-10-01T02:41:11Z)
CINEMA: Coherent Multi-Subject Video Generation via MLLM-Based Guidance [34.345125922868]
MLLM(Multimodal Large Language Model)を利用したコヒーレントなマルチオブジェクトビデオ生成フレームワークCINEMAを提案する。提案手法では,対象画像とテキストエンティティとの明示的な対応の必要性を排除し,曖昧さを軽減し,アノテーションの労力を削減する。当社のフレームワークはさまざまな主題に適応でき、パーソナライズされたコンテンツ作成の柔軟性が向上する。
論文参考訳（メタデータ） (2025-03-13T14:07:58Z)
StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文参考訳（メタデータ） (2024-05-02T16:25:16Z)
CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文参考訳（メタデータ） (2024-01-18T13:23:51Z)
MEVG: Multi-event Video Generation with Text-to-Video Models [18.06640097064693]
本稿では,ユーザから複数の個々の文が与えられた複数のイベントを示すビデオを生成する,拡散に基づく新しいビデオ生成手法を提案する。本手法は, 微調整処理を伴わずに, 事前学習したテキスト・ビデオ生成モデルを使用するため, 大規模なビデオデータセットを必要としない。提案手法は,コンテンツとセマンティクスの時間的コヒーレンシーの観点から,他のビデオ生成モデルよりも優れている。
論文参考訳（メタデータ） (2023-12-07T06:53:25Z)
DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance [69.0740091741732]
本研究では,DreamVideo という名前の事前学習ビデオ拡散モデルに基づくフレーム保持分岐を考案し,高忠実度映像生成手法を提案する。我々のモデルには強力な画像保持能力があり、我々の知る限り、他の画像-映像モデルと比較して、UCF101で最高の結果をもたらす。
論文参考訳（メタデータ） (2023-12-05T03:16:31Z)
VideoDreamer: Customized Multi-Subject Text-to-Video Generation with Disen-Mix Finetuning [47.61090084143284]
VideoDreamerは、複数の被験者の視覚的特徴を忠実に保存する、時間的に一貫したテキスト誘導ビデオを生成することができる。ビデオジェネレータは、提案されたDisen-Mix FinetuningとHuman-in-the-Loop Re-finetuning戦略により、与えられた複数の主題に対してさらにカスタマイズされる。
論文参考訳（メタデータ） (2023-11-02T04:38:50Z)
VideoGen: A Reference-Guided Latent Diffusion Approach for High Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文参考訳（メタデータ） (2023-09-01T11:14:43Z)
Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation [55.36617538438858]
本研究では,空間的知覚と時間的知覚の相互作用を強化する新しいアプローチを提案する。我々はHD-VG-130Mという大規模かつオープンソースのビデオデータセットをキュレートする。
論文参考訳（メタデータ） (2023-05-18T11:06:15Z)
Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文参考訳（メタデータ） (2023-05-06T09:07:01Z)
Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文参考訳（メタデータ） (2023-03-23T17:01:59Z)
Video Generation from Text Employing Latent Path Construction for Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文参考訳（メタデータ） (2021-07-29T06:28:20Z)
TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary Generator [34.7504057664375]
本稿では、フレーム単位で進化し、最終的にフル長のビデオを生成する新しいトレーニングフレームワーク、Text-to-Image-to-Video Generative Adversarial Network (TiVGAN)を提案する。ステップバイステップの学習プロセスは、トレーニングの安定化を支援し、条件付きテキスト記述に基づく高解像度ビデオの作成を可能にする。
論文参考訳（メタデータ） (2020-09-04T06:33:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。