論文の概要: Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with
Prototypical Embedding
- arxiv url: http://arxiv.org/abs/2401.15708v1
- Date: Sun, 28 Jan 2024 17:11:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 16:49:14.018865
- Title: Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with
Prototypical Embedding
- Title(参考訳): 原型埋め込みによるテキスト・画像拡散のオブジェクト駆動ワンショット微調整
- Authors: Jianxiang Lu, Cong Xie, Hui Guo
- Abstract要約: 提案手法は,オブジェクト駆動方式で一般化性と忠実性の課題に対処することを目的としている。
原型埋め込みは、拡散モデルを微調整する前に、オブジェクトの外観とそのクラスに基づいている。
我々の手法は、いくつかの既存の作業より優れています。
- 参考スコア(独自算出の注目度): 7.893308498886083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large-scale text-to-image generation models have made remarkable progress
in the field of text-to-image generation, many fine-tuning methods have been
proposed. However, these models often struggle with novel objects, especially
with one-shot scenarios. Our proposed method aims to address the challenges of
generalizability and fidelity in an object-driven way, using only a single
input image and the object-specific regions of interest. To improve
generalizability and mitigate overfitting, in our paradigm, a prototypical
embedding is initialized based on the object's appearance and its class, before
fine-tuning the diffusion model. And during fine-tuning, we propose a
class-characterizing regularization to preserve prior knowledge of object
classes. To further improve fidelity, we introduce object-specific loss, which
can also use to implant multiple objects. Overall, our proposed object-driven
method for implanting new objects can integrate seamlessly with existing
concepts as well as with high fidelity and generalization. Our method
outperforms several existing works. The code will be released.
- Abstract(参考訳): テキスト対画像生成の分野では,大規模テキスト対画像生成モデルが著しい進歩を遂げているため,多くの微調整手法が提案されている。
しかし、これらのモデルは、特にワンショットのシナリオにおいて、しばしば新しいオブジェクトに苦しむ。
提案手法は,単一の入力画像と関心領域のみを用いて,オブジェクト駆動方式で一般化可能性と忠実性の問題に対処することを目的としている。
一般化性の向上とオーバーフィッティングの緩和を目的として,本パラダイムでは,拡散モデルを微調整する前に,オブジェクトの外観とクラスに基づいてプロトタイプの埋め込みを初期化する。
そして、微調整の間、オブジェクトクラスの事前知識を保存するためのクラス特徴化正規化を提案する。
忠実度をさらに向上するために,複数のオブジェクトを組み込むためのオブジェクト固有の損失を導入する。
全体として、新しいオブジェクトを組み込むオブジェクト指向メソッドは、既存の概念と高い忠実性と一般化とをシームレスに統合することができる。
我々の手法はいくつかの既存手法より優れている。
コードはリリースされます。
関連論文リスト
- Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。
本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文 参考訳(メタデータ) (2024-11-24T14:31:50Z) - Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation [10.416673784744281]
本稿では,複数の参照画像特徴を対応オブジェクトにマージする重み付きマージ手法を提案する。
提案手法は,マルチオブジェクト・パーソナライズされた画像生成のためのConcept101データセットとDreamBoothデータセットの最先端技術よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T15:04:13Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - ObjectComposer: Consistent Generation of Multiple Objects Without
Fine-tuning [25.033615513933192]
本稿では,ユーザが指定した画像に類似した複数のオブジェクトの合成を生成するObjectComposerを紹介する。
私たちのアプローチはトレーニングフリーで、既存のモデルの能力を活用しています。
論文 参考訳(メタデータ) (2023-10-10T19:46:58Z) - Cycle Consistency Driven Object Discovery [75.60399804639403]
本研究では,シーンの各オブジェクトが異なるスロットに関連付けられなければならない制約を明示的に最適化する手法を提案する。
これらの一貫性目標を既存のスロットベースのオブジェクト中心手法に統合することにより、オブジェクト発見性能を大幅に改善することを示す。
提案手法は,オブジェクト発見を改善するだけでなく,下流タスクのよりリッチな機能も提供することを示唆している。
論文 参考訳(メタデータ) (2023-06-03T21:49:06Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Localizing Object-level Shape Variations with Text-to-Image Diffusion
Models [60.422435066544814]
本稿では,特定の物体の形状の変化を表現した画像の集合を生成する手法を提案する。
オブジェクトのバリエーションを生成する際の特に課題は、オブジェクトの形状に適用される操作を正確にローカライズすることである。
画像空間の操作をローカライズするために,自己注意層と交差注意層を併用する2つの手法を提案する。
論文 参考訳(メタデータ) (2023-03-20T17:45:08Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。