論文の概要: Less-to-More Generalization: Unlocking More Controllability by In-Context Generation
- arxiv url: http://arxiv.org/abs/2504.02160v1
- Date: Wed, 02 Apr 2025 22:20:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:57:37.837870
- Title: Less-to-More Generalization: Unlocking More Controllability by In-Context Generation
- Title(参考訳): 低次一般化:インコンテキスト生成による制御性の向上
- Authors: Shaojin Wu, Mengqi Huang, Wenxu Wu, Yufeng Cheng, Fei Ding, Qian He,
- Abstract要約: 本稿では,主観駆動型生成問題に対処するための高一貫性データ合成パイプラインを提案する。
このパイプラインは、拡散変換器の本質的なインコンテキスト生成機能を活用し、高一貫性のマルチオブジェクトペアデータを生成する。
また、プログレッシブなクロスモーダルアライメントとユニバーサルな回転位置埋め込みからなるUNOも導入する。
- 参考スコア(独自算出の注目度): 4.832184187988317
- License:
- Abstract: Although subject-driven generation has been extensively explored in image generation due to its wide applications, it still has challenges in data scalability and subject expansibility. For the first challenge, moving from curating single-subject datasets to multiple-subject ones and scaling them is particularly difficult. For the second, most recent methods center on single-subject generation, making it hard to apply when dealing with multi-subject scenarios. In this study, we propose a highly-consistent data synthesis pipeline to tackle this challenge. This pipeline harnesses the intrinsic in-context generation capabilities of diffusion transformers and generates high-consistency multi-subject paired data. Additionally, we introduce UNO, which consists of progressive cross-modal alignment and universal rotary position embedding. It is a multi-image conditioned subject-to-image model iteratively trained from a text-to-image model. Extensive experiments show that our method can achieve high consistency while ensuring controllability in both single-subject and multi-subject driven generation.
- Abstract(参考訳): 被写体駆動生成は幅広い応用のために画像生成において広く研究されてきたが、データスケーラビリティと被写体拡張性にはまだ課題がある。
最初の課題は、シングルオブジェクトデータセットのキュレーションからマルチオブジェクトデータセットへの移行とスケーリングが特に難しいことです。
第二に、最近のメソッドは単一オブジェクト生成に重点を置いているため、マルチオブジェクトシナリオを扱う場合、適用が難しい。
本研究では,この課題に対処するための高一貫性データ合成パイプラインを提案する。
このパイプラインは、拡散変換器の本質的なインコンテキスト生成機能を活用し、高一貫性のマルチオブジェクトペアデータを生成する。
さらに、プログレッシブなクロスモーダルアライメントとユニバーサルな回転位置埋め込みからなるUNOを導入する。
テキスト・ツー・イメージ・モデルから反復的に訓練されたマルチイメージ・コンディション・サブジェクト・ツー・イメージ・モデルである。
大規模実験により,本手法は単目的と多目的の両方で制御性を確保しつつ高い整合性を実現することができることがわかった。
関連論文リスト
- OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Latent Processes Identification From Multi-View Time Series [17.33428123777779]
本稿では,データ生成過程を逆転させて識別可能性を高めるために,コントラスト学習技術を用いた新しいフレームワークを提案する。
MuLTIは、最適輸送公式の確立によって、対応する重複変数をマージする置換機構を統合する。
論文 参考訳(メタデータ) (2023-05-14T14:21:58Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z) - Text Generation with Deep Variational GAN [16.3190206770276]
原則的アプローチによるモード崩壊問題に対処するために,GANベースのジェネリックフレームワークを提案する。
私たちのモデルは高い多様性で現実的なテキストを生成できることを示します。
論文 参考訳(メタデータ) (2021-04-27T21:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。