Fugu-MT 論文翻訳(概要): Selectively Informative Description can Reduce Undesired Embedding Entanglements in Text-to-Image Personalization

論文の概要: Selectively Informative Description can Reduce Undesired Embedding Entanglements in Text-to-Image Personalization

arxiv url: http://arxiv.org/abs/2403.15330v1
Date: Fri, 22 Mar 2024 16:35:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-25 16:40:19.796315
Title: Selectively Informative Description can Reduce Undesired Embedding Entanglements in Text-to-Image Personalization
Title（参考訳）: テキストと画像のパーソナライズにおける非望ましくないエンタングルの選択的インフォームティブ記述
Authors: Jimyeong Kim, Jungwon Park, Wonjong Rhee,
Abstract要約: 本稿では,SID(Selectively Informative Description)というテキスト記述戦略を提案する。本研究は,クロスアテンションマップ,主観的アライメント,非対象的アライメント,テキストアライメントの分析とともに,総合的な実験結果を示す。
参考スコア（独自算出の注目度）: 5.141049647900161
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In text-to-image personalization, a timely and crucial challenge is the tendency of generated images overfitting to the biases present in the reference images. We initiate our study with a comprehensive categorization of the biases into background, nearby-object, tied-object, substance (in style re-contextualization), and pose biases. These biases manifest in the generated images due to their entanglement into the subject embedding. This undesired embedding entanglement not only results in the reflection of biases from the reference images into the generated images but also notably diminishes the alignment of the generated images with the given generation prompt. To address this challenge, we propose SID~(Selectively Informative Description), a text description strategy that deviates from the prevalent approach of only characterizing the subject's class identification. SID is generated utilizing multimodal GPT-4 and can be seamlessly integrated into optimization-based models. We present comprehensive experimental results along with analyses of cross-attention maps, subject-alignment, non-subject-disentanglement, and text-alignment.
Abstract（参考訳）: テキスト・ツー・イメージのパーソナライゼーションにおいて、タイムリーかつ重要な課題は、参照画像に存在するバイアスに過度に適合する生成画像の傾向である。我々は, 偏見を背景, 近傍対象, 結束対象, 物質(スタイルの再コンテキスト化)に包括的に分類し, 偏見を呈する。これらのバイアスは、被写体への絡み合いによって生成された画像に現れる。この望ましくない埋め込み絡みは、参照画像からのバイアスを生成画像に反映させるだけでなく、生成画像と所定の生成プロンプトとのアライメントを著しく低下させる。この課題に対処するために,SID~(Selectively Informative Description)というテキスト記述戦略を提案する。 SIDはマルチモーダル GPT-4 を利用して生成され、最適化モデルにシームレスに統合できる。本研究は,クロスアテンションマップ,主観的アライメント,非対象的アライメント,テキストアライメントの分析とともに,総合的な実験結果を示す。

関連論文リスト

Recovering Partially Corrupted Major Objects through Tri-modality Based Image Completion [13.846868357952419]
拡散モデルは画像補完タスクに広く採用されている。永続的な課題は、損傷した領域でオブジェクトが部分的にあいまいになったときに発生するが、残りの部分はバックグラウンドでまだ見える。そこで我々は,新しい視覚支援によるテキストベースの指導を補足する,カジュアルスケッチを提案する。このスケッチは重要な構造的手がかりを提供し、生成モデルは既存の背景とシームレスに統合されたオブジェクト構造を生成することができる。
論文参考訳（メタデータ） (2025-03-10T08:34:31Z)
Energy-Guided Optimization for Personalized Image Editing with Pretrained Text-to-Image Diffusion Models [20.582222123619285]
本稿では,潜在空間における編集画像の最適化として,パーソナライズされたコンテンツ編集を定式化する学習自由フレームワークを提案する。テキスト・エネルギ・ガイダンスを早期に活用し,対象クラスへの自然な移行を実現するための粗大な戦略を提案する。ドメインギャップが大きくてもオブジェクト置換が優れている。
論文参考訳（メタデータ） (2025-03-06T08:52:29Z)
DECOR:Decomposition and Projection of Text Embeddings for Text-to-Image Customization [15.920735314050296]
本研究では、テキスト埋め込み行列を分解し、埋め込み空間の幾何学を理解するためにコンポーネント分析を行う。不要なトークンベクトルに対してベクトル空間にテキスト埋め込みを投影するDECORを提案する。実験により、DECORは最先端のカスタマイズモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2024-12-12T10:59:44Z)
Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文参考訳（メタデータ） (2024-10-12T04:34:46Z)
MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [6.4680449907623006]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文参考訳（メタデータ） (2024-06-11T12:32:53Z)
Training-free Subject-Enhanced Attention Guidance for Compositional Text-to-image Generation [22.949365270116335]
提案手法は,推論時間中に生成過程に介入するための学習不要な指導手法を提案する。特に,本手法は例外的なゼロショット生成能力を示し,特にコンポジション生成の難易度が高い。
論文参考訳（メタデータ） (2024-05-11T08:11:25Z)
Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文参考訳（メタデータ） (2024-03-25T17:52:07Z)
Pick-and-Draw: Training-free Semantic Guidance for Text-to-Image Personalization [56.12990759116612]
Pick-and-Drawは、パーソナライズ手法のアイデンティティ一貫性と生成多様性を高めるためのトレーニング不要なセマンティックガイダンスアプローチである。提案手法は、パーソナライズされた拡散モデルに適用可能であり、単一の参照画像のみを必要とする。
論文参考訳（メタデータ） (2024-01-30T05:56:12Z)
Decoupled Textual Embeddings for Customized Image Generation [62.98933630971543]
カスタマイズされたテキスト・ツー・イメージ生成は、ユーザが指定した概念を少数の画像で学習することを目的としている。既存の方法は、通常、過剰な問題に悩まされ、学習された概念と対象と無関係な情報を絡み合わせる。フレキシブルなテキスト・ツー・イメージ生成のための不整合概念の埋め込みを学習する新しいアプローチであるDETEXを提案する。
論文参考訳（メタデータ） (2023-12-19T03:32:10Z)
Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文参考訳（メタデータ） (2023-12-11T04:47:39Z)
Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-18T08:23:46Z)
Paste, Inpaint and Harmonize via Denoising: Subject-Driven Image Editing with Pre-Trained Diffusion Model [22.975965453227477]
textitPaste, Inpaint, Harmonize と呼ばれる新しいフレームワークをDenoising (PhD) を通じて導入する。本実験では,主観的画像編集作業にPhDを適用し,参照対象のテキスト駆動シーン生成を探索する。
論文参考訳（メタデータ） (2023-06-13T07:43:10Z)
DisenBooth: Identity-Preserving Disentangled Tuning for Subject-Driven Text-to-Image Generation [50.39533637201273]
主観駆動型テキスト・ツー・イメージ生成のためのID保存型アンタングル型チューニングフレームワークであるDisenBoothを提案する。 DisenBoothは、ID保存の埋め込みとアイデンティティ関連の埋め込みを組み合わせることで、より世代的柔軟性と制御性を示す。
論文参考訳（メタデータ） (2023-05-05T09:08:25Z)
Two-stage Visual Cues Enhancement Network for Referring Image Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文参考訳（メタデータ） (2021-10-09T02:53:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。