論文の概要: Comparison Reveals Commonality: Customized Image Generation through Contrastive Inversion
- arxiv url: http://arxiv.org/abs/2508.07755v1
- Date: Mon, 11 Aug 2025 08:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.013371
- Title: Comparison Reveals Commonality: Customized Image Generation through Contrastive Inversion
- Title(参考訳): 比較の共通性: コントラストインバージョンによるカスタマイズ画像生成
- Authors: Minseo Kim, Minchan Kwon, Dongyeun Lee, Yunho Jeon, Junmo Kim,
- Abstract要約: 本稿では,入力画像の比較を付加情報に頼ることなく,共通概念を識別する手法であるContrastive Inversionを提案する。
我々は、画像的に補助的なテキストトークンとともに、コントラスト学習を用いてターゲットトークンを訓練し、ターゲットの真の意味をよく理解する。
- 参考スコア(独自算出の注目度): 22.481176245267328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent demand for customized image generation raises a need for techniques that effectively extract the common concept from small sets of images. Existing methods typically rely on additional guidance, such as text prompts or spatial masks, to capture the common target concept. Unfortunately, relying on manually provided guidance can lead to incomplete separation of auxiliary features, which degrades generation quality.In this paper, we propose Contrastive Inversion, a novel approach that identifies the common concept by comparing the input images without relying on additional information. We train the target token along with the image-wise auxiliary text tokens via contrastive learning, which extracts the well-disentangled true semantics of the target. Then we apply disentangled cross-attention fine-tuning to improve concept fidelity without overfitting. Experimental results and analysis demonstrate that our method achieves a balanced, high-level performance in both concept representation and editing, outperforming existing techniques.
- Abstract(参考訳): 近年、カスタマイズ画像生成の需要が高まり、小さな画像集合から共通概念を効果的に抽出する技術の必要性が高まっている。
既存の方法は通常、一般的な目標概念を捉えるために、テキストプロンプトや空間マスクなどの追加のガイダンスに依存する。
残念なことに,手動による手動指導を頼りにすることで,生成品質を低下させるような補助的特徴の不完全な分離につながる可能性がある。この記事では,追加情報に頼ることなく,入力画像を比較することで共通概念を識別するContrastive Inversionを提案する。
我々は、画像的に補助的なテキストトークンとともに、コントラスト学習を用いてターゲットトークンを訓練し、ターゲットの真の意味をよく理解する。
次に,不整合型クロスアテンション微調整を適用して,過度に適合することなく,概念の忠実性を向上させる。
実験結果と解析結果から,提案手法は概念表現と編集の両面でバランスの取れたハイレベルな性能を実現し,既存の技術よりも優れた性能を発揮することが示された。
関連論文リスト
- Training-free Composite Scene Generation for Layout-to-Image Synthesis [29.186425845897947]
本稿では,拡散条件下での対角的意味交叉を克服するために,新しい学習自由アプローチを提案する。
本稿では,(1)トークン競合を解消し,正確な概念合成を保証するためのトークン間制約,2)画素間関係を改善する自己注意制約,という2つの革新的な制約を提案する。
本評価では,拡散過程の導出にレイアウト情報を活用することで,忠実度と複雑さを向上したコンテンツリッチな画像を生成することの有効性を確認した。
論文 参考訳(メタデータ) (2024-07-18T15:48:07Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Conditional Score Guidance for Text-Driven Image-to-Image Translation [52.73564644268749]
本稿では,事前訓練されたテキスト・画像拡散モデルに基づく,テキスト駆動型画像・画像変換のための新しいアルゴリズムを提案する。
本手法は,ソース画像の関心領域を選択的に編集することで,対象画像を生成することを目的とする。
論文 参考訳(メタデータ) (2023-05-29T10:48:34Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter [63.622879199281705]
いくつかの例に基づく画像生成手法が提案されており、例えば、いくつかの入力参照の健全な特徴を吸収して新しい概念を生成する。
本研究では,DreamArtistというシンプルなフレームワークを提案する。このフレームワークは,事前学習した拡散モデルに対して,新しい正負の学習戦略を採用する。
我々は,画像類似性(忠実度)と多様性,生成制御性,スタイルのクローニングから,幅広い実験を行い,提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-11-21T10:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。