論文の概要: Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model
- arxiv url: http://arxiv.org/abs/2510.18573v1
- Date: Tue, 21 Oct 2025 12:28:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.519316
- Title: Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model
- Title(参考訳): Kaleido: オープンソースマルチオブジェクト参照ビデオ生成モデル
- Authors: Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang, Tiankun Cao, Cheng Wang, Xiaotao Gu, Jie Tang, Dan Guo, Meng Wang,
- Abstract要約: 対象者の複数の参照画像に条件付き映像を合成することを目的としたS2V生成フレームワークであるKaleidoについて述べる。
カレイドは、一貫性、忠実性、一般化において従来の方法よりも著しく優れており、S2V生成の進歩を示している。
- 参考スコア(独自算出の注目度): 38.79676648965641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Kaleido, a subject-to-video~(S2V) generation framework, which aims to synthesize subject-consistent videos conditioned on multiple reference images of target subjects. Despite recent progress in S2V generation models, existing approaches remain inadequate at maintaining multi-subject consistency and at handling background disentanglement, often resulting in lower reference fidelity and semantic drift under multi-image conditioning. These shortcomings can be attributed to several factors. Primarily, the training dataset suffers from a lack of diversity and high-quality samples, as well as cross-paired data, i.e., paired samples whose components originate from different instances. In addition, the current mechanism for integrating multiple reference images is suboptimal, potentially resulting in the confusion of multiple subjects. To overcome these limitations, we propose a dedicated data construction pipeline, incorporating low-quality sample filtering and diverse data synthesis, to produce consistency-preserving training data. Moreover, we introduce Reference Rotary Positional Encoding (R-RoPE) to process reference images, enabling stable and precise multi-image integration. Extensive experiments across numerous benchmarks demonstrate that Kaleido significantly outperforms previous methods in consistency, fidelity, and generalization, marking an advance in S2V generation.
- Abstract(参考訳): 対象者の複数の参照画像に条件付き映像を合成することを目的としたS2V生成フレームワークであるKaleidoについて述べる。
近年のS2V生成モデルの発展にもかかわらず、既存のアプローチはマルチオブジェクトの一貫性の維持や背景の絡み合いの処理に不適であり、しばしばマルチイメージ条件下での参照忠実度やセマンティックドリフトが低下する。
これらの欠点はいくつかの要因によって説明できる。
主に、トレーニングデータセットは多様性の欠如と高品質なサンプル、クロスペアデータ、すなわち異なるインスタンスに由来するコンポーネントのペア化されたサンプルに悩まされる。
さらに、複数の参照画像を統合するための現在のメカニズムは、サブ最適であり、複数の被写体を混乱させる可能性がある。
これらの制約を克服するために、低品質なサンプルフィルタリングと多様なデータ合成を取り入れた専用データ構築パイプラインを提案し、一貫性を保ったトレーニングデータを生成する。
さらに、参照画像の処理にR-RoPE(Reference Rotary Positional Encoding)を導入し、安定かつ正確なマルチイメージ統合を実現する。
多数のベンチマークによる大規模な実験により、カレイドは、一貫性、忠実性、一般化において従来の手法を著しく上回っており、S2V生成の進歩を示している。
関連論文リスト
- CountLoop: Training-Free High-Instance Image Generation via Iterative Agent Guidance [47.59187786346473]
我々は、正確なインスタンス制御を備えた拡散モデルを提供するトレーニング不要のフレームワークであるCountLoopを提案する。
COCO Count、T2I CompBench、および2つの新しいハイインスタンスベンチマークの実験は、CountLoopが最大98%のカウント精度を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-18T11:28:02Z) - Less-to-More Generalization: Unlocking More Controllability by In-Context Generation [4.832184187988317]
本稿では,主観駆動型生成問題に対処するための高一貫性データ合成パイプラインを提案する。
このパイプラインは、拡散変換器の本質的なインコンテキスト生成機能を活用し、高一貫性のマルチオブジェクトペアデータを生成する。
また、プログレッシブなクロスモーダルアライメントとユニバーサルな回転位置埋め込みからなるUNOも導入する。
論文 参考訳(メタデータ) (2025-04-02T22:20:21Z) - D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。
第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。
第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文 参考訳(メタデータ) (2025-03-21T13:58:49Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - A Closer Look at Few-shot Image Generation [38.83570296616384]
訓練済みのGANを小さなターゲットデータで転送する場合、ジェネレータはトレーニングサンプルを複製する傾向がある。
この数ショットの画像生成に対処するいくつかの方法が提案されているが、それらを統一されたフレームワークで分析する努力が不足している。
適応中に既存の手法を解析するためのフレームワークを提案する。
第2のコントリビューションは、ソースドメインのリッチなマルチレベル多様性情報をターゲットドメインジェネレータに保持するために、相互情報(MI)を適用することを提案する。
論文 参考訳(メタデータ) (2022-05-08T07:46:26Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。