論文の概要: OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation
- arxiv url: http://arxiv.org/abs/2512.08294v2
- Date: Wed, 10 Dec 2025 05:44:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 13:10:24.478479
- Title: OpenSubject: Leveraging Video-Derived Identity and Diversity Priors for Subject-driven Image Generation and Manipulation
- Title(参考訳): OpenSubject: 被写体駆動画像生成と操作のためのビデオデリバティブアイデンティティと多様性優先の活用
- Authors: Yexin Liu, Manyuan Zhang, Yueze Wang, Hongyu Li, Dian Zheng, Weiming Zhang, Changsheng Lu, Xunliang Cai, Yan Feng, Peng Pei, Harry Yang,
- Abstract要約: ビデオ由来の大規模コーパスであるOpenSubjectを導入し,2.5Mサンプルと4.35Mイメージを被験者駆動で生成・操作する。
データセットは、4段階のパイプラインで構築されている。
さらに、主観的生成と操作を対象とするベンチマークを導入し、その上で、VLM判定器によるアイデンティティの忠実度、即効性、操作整合性、背景整合性を評価する。
- 参考スコア(独自算出の注目度): 53.33087515226418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the promising progress in subject-driven image generation, current models often deviate from the reference identities and struggle in complex scenes with multiple subjects. To address this challenge, we introduce OpenSubject, a video-derived large-scale corpus with 2.5M samples and 4.35M images for subject-driven generation and manipulation. The dataset is built with a four-stage pipeline that exploits cross-frame identity priors. (i) Video Curation. We apply resolution and aesthetic filtering to obtain high-quality clips. (ii) Cross-Frame Subject Mining and Pairing. We utilize vision-language model (VLM)-based category consensus, local grounding, and diversity-aware pairing to select image pairs. (iii) Identity-Preserving Reference Image Synthesis. We introduce segmentation map-guided outpainting to synthesize the input images for subject-driven generation and box-guided inpainting to generate input images for subject-driven manipulation, together with geometry-aware augmentations and irregular boundary erosion. (iv) Verification and Captioning. We utilize a VLM to validate synthesized samples, re-synthesize failed samples based on stage (iii), and then construct short and long captions. In addition, we introduce a benchmark covering subject-driven generation and manipulation, and then evaluate identity fidelity, prompt adherence, manipulation consistency, and background consistency with a VLM judge. Extensive experiments show that training with OpenSubject improves generation and manipulation performance, particularly in complex scenes.
- Abstract(参考訳): 被写体駆動画像生成の有望な進歩にもかかわらず、現在のモデルは参照のアイデンティティから逸脱し、複数の被写体を持つ複雑なシーンで苦労することが多い。
この課題に対処するために,ビデオ由来の大規模コーパスであるOpenSubjectを紹介した。
データセットは、4段階のパイプラインで構築されている。
(i)ビデオキュレーション。
高品質なクリップを得るために,解像度と美的フィルタリングを適用した。
(二)クロスフレーム・サブジェクト・マイニング及びペアリング
視覚言語モデル(VLM)に基づくカテゴリコンセンサス、局所的グラウンドリング、多様性を考慮したペアリングを用いて画像ペアを選択する。
三 アイデンティティ保存参照画像合成
サブジェクト駆動生成のための入力画像を合成するためのセグメンテーションマップ誘導アウトペイントと、ボックス誘導インペイントを導入し、ジオメトリ・アウェア拡張と不規則境界侵食とともに、サブジェクト駆動操作のための入力画像を生成する。
(四)検証及び監禁。
我々は、VLMを用いて合成されたサンプルを検証し、ステージに基づいて失敗したサンプルを再合成する。
(iii)その後、短い字幕と長い字幕を造る。
さらに、主観的生成と操作を対象とするベンチマークを導入し、その上で、VLM判定器によるアイデンティティの忠実度、即効性、操作整合性、背景整合性を評価する。
大規模な実験によると、OpenSubjectによるトレーニングは、特に複雑なシーンにおいて、生成と操作のパフォーマンスを改善する。
関連論文リスト
- OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions [77.04071342405055]
本研究では、画像編集データを用いた画像-動画移動混合(IVTM)訓練を開発し、カスタマイズされたビデオにおける被写体に対するインストラクティブな編集を可能にする。
また,2つの埋め込み機構を持つ拡散トランスフォーマーフレームワークであるOmniVCusを提案し,Luttery Embedding (LE) とTemporally Aligned Embedding (TAE) を提案する。
本手法は定量評価と定性評価の両方において最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2025-06-29T18:43:00Z) - Phantom-Data : Towards a General Subject-Consistent Video Generation Dataset [16.96968349836899]
textbfPhantom-Dataは、最初の汎用的対ビデオ整合性データセットである。
本データセットは,(1)汎用かつ入力整合性のある対象検出モジュール,(2)5300万本以上のビデオと30億枚以上の画像からの大規模クロスコンテキスト対象検索,(3)文脈変動下での視覚的整合性を確保するための事前誘導型識別検証という3段階のパイプラインで構築されている。
論文 参考訳(メタデータ) (2025-06-23T17:11:56Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - IMAGINE: Image Synthesis by Image-Guided Model Inversion [79.4691654458141]
IMGE-Guided Model INvErsion (IMAGINE) と呼ばれるインバージョンベースの手法を導入し、高品質で多様な画像を生成します。
我々は,事前学習した分類器から画像意味論の知識を活用し,妥当な世代を実現する。
IMAGINEは,1)合成中の意味的特異性制約を同時に実施し,2)ジェネレータトレーニングなしでリアルな画像を生成し,3)生成過程を直感的に制御する。
論文 参考訳(メタデータ) (2021-04-13T02:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。