論文の概要: Selectively Informative Description can Reduce Undesired Embedding Entanglements in Text-to-Image Personalization
- arxiv url: http://arxiv.org/abs/2403.15330v1
- Date: Fri, 22 Mar 2024 16:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 16:40:19.796315
- Title: Selectively Informative Description can Reduce Undesired Embedding Entanglements in Text-to-Image Personalization
- Title(参考訳): テキストと画像のパーソナライズにおける非望ましくないエンタングルの選択的インフォームティブ記述
- Authors: Jimyeong Kim, Jungwon Park, Wonjong Rhee,
- Abstract要約: 本稿では,SID(Selectively Informative Description)というテキスト記述戦略を提案する。
本研究は,クロスアテンションマップ,主観的アライメント,非対象的アライメント,テキストアライメントの分析とともに,総合的な実験結果を示す。
- 参考スコア(独自算出の注目度): 5.141049647900161
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In text-to-image personalization, a timely and crucial challenge is the tendency of generated images overfitting to the biases present in the reference images. We initiate our study with a comprehensive categorization of the biases into background, nearby-object, tied-object, substance (in style re-contextualization), and pose biases. These biases manifest in the generated images due to their entanglement into the subject embedding. This undesired embedding entanglement not only results in the reflection of biases from the reference images into the generated images but also notably diminishes the alignment of the generated images with the given generation prompt. To address this challenge, we propose SID~(Selectively Informative Description), a text description strategy that deviates from the prevalent approach of only characterizing the subject's class identification. SID is generated utilizing multimodal GPT-4 and can be seamlessly integrated into optimization-based models. We present comprehensive experimental results along with analyses of cross-attention maps, subject-alignment, non-subject-disentanglement, and text-alignment.
- Abstract(参考訳): テキスト・ツー・イメージのパーソナライゼーションにおいて、タイムリーかつ重要な課題は、参照画像に存在するバイアスに過度に適合する生成画像の傾向である。
我々は, 偏見を背景, 近傍対象, 結束対象, 物質(スタイルの再コンテキスト化)に包括的に分類し, 偏見を呈する。
これらのバイアスは、被写体への絡み合いによって生成された画像に現れる。
この望ましくない埋め込み絡みは、参照画像からのバイアスを生成画像に反映させるだけでなく、生成画像と所定の生成プロンプトとのアライメントを著しく低下させる。
この課題に対処するために,SID~(Selectively Informative Description)というテキスト記述戦略を提案する。
SIDはマルチモーダル GPT-4 を利用して生成され、最適化モデルにシームレスに統合できる。
本研究は,クロスアテンションマップ,主観的アライメント,非対象的アライメント,テキストアライメントの分析とともに,総合的な実験結果を示す。
関連論文リスト
- Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image
Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。
提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文 参考訳(メタデータ) (2024-01-30T05:56:12Z) - Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。
既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。
フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:32:10Z) - Stellar: Systematic Evaluation of Human-Centric Personalized
Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。
我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。
被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文 参考訳(メタデータ) (2023-12-11T04:47:39Z) - TIBET: Identifying and Evaluating Biases in Text-to-Image Generative
Models [23.18396000415575]
本稿では,任意のテキスト・ツー・イメージ(TTI)モデルと任意のプロンプトに対して,幅広いバイアススペクトルを研究・定量化するための一般的なアプローチを提案する。
我々の手法は、与えられたプロンプトに関連する可能性のある潜在的なバイアスを自動的に識別し、それらのバイアスを測定する。
本研究では,本手法が意味論的概念を通じて複雑な多次元バイアスを説明できることを示す。
論文 参考訳(メタデータ) (2023-12-03T02:31:37Z) - Improving Compositional Text-to-image Generation with Large
Vision-Language Models [26.202725136839632]
合成テキスト画像モデルは、入力テキストと整合した高品質な画像を生成するのにしばしば困難に直面する。
生成した画像と対応する入力テキストのアライメントの多次元評価には,大規模視覚言語モデル(LVLM)を用いる。
提案手法は,合成画像生成におけるテキスト画像のアライメントを大幅に改善することを確認した。
論文 参考訳(メタデータ) (2023-10-10T05:09:05Z) - Dynamic Prompt Learning: Addressing Cross-Attention Leakage for
Text-Based Image Editing [23.00202969969574]
そこで本稿では,テキストプロンプト中の名詞の正しい単語に注意を向けるために,クロスアテンションマップを強制する動的プロンプト学習(DPL)を提案する。
本稿では,Word-Swap, Prompt Refinement, Attention Re-weightingの編集結果の改善について述べる。
論文 参考訳(メタデータ) (2023-09-27T13:55:57Z) - Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing
with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。
本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文 参考訳(メタデータ) (2023-06-13T07:43:10Z) - DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven
Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。
DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文 参考訳(メタデータ) (2023-05-05T09:08:25Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。