論文の概要: Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset
- arxiv url: http://arxiv.org/abs/2506.18851v1
- Date: Mon, 23 Jun 2025 17:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.099241
- Title: Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset
- Title(参考訳): ファントムデータ : 汎用映像生成データセットを目指して
- Authors: Zhuowei Chen, Bingchuan Li, Tianxiang Ma, Lijie Liu, Mingcong Liu, Yi Zhang, Gen Li, Xinghui Li, Siyu Zhou, Qian He, Xinglong Wu,
- Abstract要約: textbfPhantom-Dataは、最初の汎用的対ビデオ整合性データセットである。
本データセットは,(1)汎用かつ入力整合性のある対象検出モジュール,(2)5300万本以上のビデオと30億枚以上の画像からの大規模クロスコンテキスト対象検索,(3)文脈変動下での視覚的整合性を確保するための事前誘導型識別検証という3段階のパイプラインで構築されている。
- 参考スコア(独自算出の注目度): 16.96968349836899
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subject-to-video generation has witnessed substantial progress in recent years. However, existing models still face significant challenges in faithfully following textual instructions. This limitation, commonly known as the copy-paste problem, arises from the widely used in-pair training paradigm. This approach inherently entangles subject identity with background and contextual attributes by sampling reference images from the same scene as the target video. To address this issue, we introduce \textbf{Phantom-Data, the first general-purpose cross-pair subject-to-video consistency dataset}, containing approximately one million identity-consistent pairs across diverse categories. Our dataset is constructed via a three-stage pipeline: (1) a general and input-aligned subject detection module, (2) large-scale cross-context subject retrieval from more than 53 million videos and 3 billion images, and (3) prior-guided identity verification to ensure visual consistency under contextual variation. Comprehensive experiments show that training with Phantom-Data significantly improves prompt alignment and visual quality while preserving identity consistency on par with in-pair baselines.
- Abstract(参考訳): 近年,映像制作の進歩が目覚ましい。
しかし、既存のモデルはテキスト命令を忠実に追従する上で大きな課題に直面している。
この制限は、一般にコピー・ペースト問題として知られ、広く使われているペア内トレーニングパラダイムから生じる。
このアプローチは、対象の映像と同じシーンから参照画像をサンプリングすることで、対象のアイデンティティを背景属性とコンテキスト属性に関連付ける。
この問題に対処するために、さまざまなカテゴリにまたがる約100万のアイデンティティと一貫性を持つペアを含む、最初の汎用の主題とビデオの整合性データセットである \textbf{Phantom-Dataを紹介した。
本データセットは,(1)汎用かつ入力整合性のある対象検出モジュール,(2)5300万本以上のビデオと30億枚以上の画像からの大規模クロスコンテキスト対象検索,(3)文脈変動下での視覚的整合性を確保するための事前誘導型識別検証という3段階のパイプラインで構築されている。
総合的な実験により、Phantom-Dataによるトレーニングは、ペア内ベースラインと同等のアイデンティティ一貫性を維持しながら、迅速なアライメントと視覚的品質を著しく向上することが示された。
関連論文リスト
- Get In Video: Add Anything You Want to the Video [48.06070610416688]
ビデオ編集では、特定の現実世界のインスタンスを既存の映像に組み込む能力がますます求められている。
現在のアプローチでは、特定の対象のユニークな視覚的特徴を捉え、自然なインスタンス/シーンの相互作用を保証することができません。
本稿では,ユーザがビデオに取り入れたい視覚的要素を正確に特定するための参照画像を提供する「Get-In-Video Editing」を紹介する。
論文 参考訳(メタデータ) (2025-03-08T16:27:53Z) - Synthesizing Consistent Novel Views via 3D Epipolar Attention without Re-Training [102.82553402539139]
大規模な拡散モデルでは、単一画像からの新規なビュー合成において顕著なゼロショット機能を示す。
これらのモデルは、新規および参照ビュー間の一貫性を維持する上で、しばしば課題に直面します。
入力ビューから重なり合う情報の探索と検索にエピポーラ幾何を用いることを提案する。
この情報はターゲットビューの生成に組み込まれ、トレーニングや微調整の必要がなくなる。
論文 参考訳(メタデータ) (2025-02-25T14:04:22Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - Reminding Multimodal Large Language Models of Object-aware Knowledge with Retrieved Tags [28.368960723666458]
MLLM(Multimodal Large Language Models)は、視覚的命令に対して正確かつ詳細な応答を提供するために必要な場合、重要な問題に対処する。
これらの問題を緩和する効果を示すが、大量の新しいデータを収集するコストがかかる。
本稿では、リッチなオブジェクト認識情報を含む検索拡張タグトークンを用いて、マッピングを強化することを提案する。
論文 参考訳(メタデータ) (2024-06-16T08:20:12Z) - CustomVideo: Customizing Text-to-Video Generation with Multiple Subjects [61.323597069037056]
テキスト・ビデオ・ジェネレーションのパーソナライズへの現在のアプローチは、複数の課題に対処することに悩まされている。
複数の被験者の指導でアイデンティティ保存ビデオを生成する新しいフレームワークであるCustomVideoを提案する。
論文 参考訳(メタデータ) (2024-01-18T13:23:51Z) - A Data Perspective on Enhanced Identity Preservation for Diffusion Personalization [25.56082131075747]
大規模なテキスト画像モデルは、自然言語を使って画像を生成する能力に革命をもたらした。
これはテキスト・ツー・イメージ・モデルのパーソナライズ方法への関心につながった。
テキストと画像の両レベルで、新しい正規化データセット生成戦略を導入する。
論文 参考訳(メタデータ) (2023-11-07T19:41:19Z) - Weakly-supervised 3D Pose Transfer with Keypoints [57.66991032263699]
3Dポーズ転送の主な課題は、1) 異なる文字で同じポーズを行うペアトレーニングデータの欠如、2) ターゲットメッシュからポーズと形状情報を分離すること、3) 異なるトポロジを持つメッシュに適用することの難しさである。
本稿では,これらの課題を克服するためのキーポイントベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-25T12:40:24Z) - JourneyDB: A Benchmark for Generative Image Understanding [89.02046606392382]
生成画像の領域に適合する包括的データセットであるJourneyDBを導入する。
精巧にキュレートされたデータセットは、400万の異なる高品質な画像で構成されています。
本データセットでは,生成した画像の理解性能を評価するための4つのベンチマークを考案した。
論文 参考訳(メタデータ) (2023-07-03T02:39:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。