論文の概要: Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation
- arxiv url: http://arxiv.org/abs/2409.17920v1
- Date: Thu, 26 Sep 2024 15:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 17:03:54.337328
- Title: Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation
- Title(参考訳): ファインタニング不要なパーソナライズド画像生成のためのマルチコンディション・コンフュージョンの解消
- Authors: Qihan Huang, Siming Fu, Jinlong Liu, Hao Jiang, Yipeng Yu, Jie Song,
- Abstract要約: 本稿では,複数の参照画像特徴を対応オブジェクトにマージする重み付きマージ手法を提案する。
提案手法は,マルチオブジェクト・パーソナライズされた画像生成のためのConcept101データセットとDreamBoothデータセットの最先端技術よりも優れた性能を実現する。
- 参考スコア(独自算出の注目度): 10.416673784744281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized text-to-image generation methods can generate customized images based on the reference images, which have garnered wide research interest. Recent methods propose a finetuning-free approach with a decoupled cross-attention mechanism to generate personalized images requiring no test-time finetuning. However, when multiple reference images are provided, the current decoupled cross-attention mechanism encounters the object confusion problem and fails to map each reference image to its corresponding object, thereby seriously limiting its scope of application. To address the object confusion problem, in this work we investigate the relevance of different positions of the latent image features to the target object in diffusion model, and accordingly propose a weighted-merge method to merge multiple reference image features into the corresponding objects. Next, we integrate this weighted-merge method into existing pre-trained models and continue to train the model on a multi-object dataset constructed from the open-sourced SA-1B dataset. To mitigate object confusion and reduce training costs, we propose an object quality score to estimate the image quality for the selection of high-quality training samples. Furthermore, our weighted-merge training framework can be employed on single-object generation when a single object has multiple reference images. The experiments verify that our method achieves superior performance to the state-of-the-arts on the Concept101 dataset and DreamBooth dataset of multi-object personalized image generation, and remarkably improves the performance on single-object personalized image generation. Our code is available at https://github.com/hqhQAQ/MIP-Adapter.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ生成手法は、幅広い研究の関心を集めている参照画像に基づいてカスタマイズされた画像を生成することができる。
近年,テストタイムの微調整を必要としないパーソナライズされた画像を生成するために,非結合型クロスアテンション機構を用いたファインタニングフリーアプローチを提案する。
しかし、複数の参照画像が提供されると、現在の分離されたクロスアテンション機構がオブジェクトの混乱問題に遭遇し、各参照画像を対応するオブジェクトにマッピングできないため、適用範囲が著しく制限される。
本研究は,オブジェクト混同問題に対処するため,複数の参照画像特徴を対象オブジェクトにマージする重み付きマージ手法を提案する。
次に、この重み付きマージ手法を既存の事前学習モデルに統合し、オープンソースのSA-1Bデータセットから構築した多目的データセット上でモデルをトレーニングし続ける。
オブジェクトの混乱を軽減し,トレーニングコストを削減するため,高品質なトレーニングサンプル選択のための画像品質を推定するためのオブジェクト品質スコアを提案する。
さらに、重み付けされたマージトレーニングフレームワークは、単一のオブジェクトが複数の参照イメージを持つ場合、単一オブジェクト生成に使用できる。
実験により,本手法は多目的パーソナライズされた画像生成のConcept101データセットとDreamBoothデータセットの最先端性を実現し,単一オブジェクトパーソナライズされた画像生成の性能を著しく向上することを確認した。
私たちのコードはhttps://github.com/hqhQAQ/MIP-Adapter.comから入手可能です。
関連論文リスト
- Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects [20.978091381109294]
本稿では,単一画像から音声オブジェクトを生成する手法を提案する。
提案手法は,入力画像と視覚的に一致した音声オブジェクトを生成する。
実験の結果,本手法は音声によるオブジェクト生成における最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-21T20:41:32Z) - Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with
Prototypical Embedding [7.893308498886083]
提案手法は,オブジェクト駆動方式で一般化性と忠実性の課題に対処することを目的としている。
原型埋め込みは、拡散モデルを微調整する前に、オブジェクトの外観とそのクラスに基づいている。
我々の手法は、いくつかの既存の作業より優れています。
論文 参考訳(メタデータ) (2024-01-28T17:11:42Z) - ObjectComposer: Consistent Generation of Multiple Objects Without
Fine-tuning [25.033615513933192]
本稿では,ユーザが指定した画像に類似した複数のオブジェクトの合成を生成するObjectComposerを紹介する。
私たちのアプローチはトレーニングフリーで、既存のモデルの能力を活用しています。
論文 参考訳(メタデータ) (2023-10-10T19:46:58Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Collaging Class-specific GANs for Semantic Image Synthesis [68.87294033259417]
本稿では,高分解能なセマンティック画像合成のための新しい手法を提案する。
1つのベースイメージジェネレータと複数のクラス固有のジェネレータで構成される。
実験により,本手法は高解像度で高品質な画像を生成することができることが示された。
論文 参考訳(メタデータ) (2021-10-08T17:46:56Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。