論文の概要: Mitigating Semantic Collapse in Generative Personalization with a Surprisingly Simple Test-Time Embedding Adjustment
- arxiv url: http://arxiv.org/abs/2506.22685v1
- Date: Fri, 27 Jun 2025 23:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.513996
- Title: Mitigating Semantic Collapse in Generative Personalization with a Surprisingly Simple Test-Time Embedding Adjustment
- Title(参考訳): 驚くほど簡易なテスト時間埋め込み調整による生成的パーソナライゼーションにおける意味的崩壊の軽減
- Authors: Anh Bui, Trang Vu, Trung Le, Junae Kim, Tamas Abraham, Rollin Omari, Amar Kaur, Dinh Phung,
- Abstract要約: 生成的パーソナライゼーションにおいて、学習された視覚概念(V*$)は、その本来の意味から徐々に変化していく。
本研究では,事前学習した埋め込みの大きさと方向を推論時に調整する学習自由度手法を提案する。
本手法は多種多様なパーソナライズ手法に適用可能であり,テキスト画像アライメントの大幅な向上を示す。
- 参考スコア(独自算出の注目度): 18.72801811358617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the semantic collapsing problem in generative personalization, an under-explored topic where the learned visual concept ($V^*$) gradually shifts from its original textual meaning and comes to dominate other concepts in multi-concept input prompts. This issue not only reduces the semantic richness of complex input prompts like "a photo of $V^*$ wearing glasses and playing guitar" into simpler, less contextually rich forms such as "a photo of $V^*$" but also leads to simplified output images that fail to capture the intended concept. We identify the root cause as unconstrained optimisation, which allows the learned embedding $V^*$ to drift arbitrarily in the embedding space, both in direction and magnitude. To address this, we propose a simple yet effective training-free method that adjusts the magnitude and direction of pre-trained embedding at inference time, effectively mitigating the semantic collapsing problem. Our method is broadly applicable across different personalization methods and demonstrates significant improvements in text-image alignment in diverse use cases. Our code is anonymously published at https://anonymous.4open.science/r/Embedding-Adjustment.
- Abstract(参考訳): 本稿では、学習された視覚概念(V^*$)が本来の意味から徐々にシフトし、多概念入力プロンプトにおいて他の概念を支配下に置くこととなる、生成的パーソナライゼーションにおける意味的崩壊問題について検討する。
この問題は、「$V^*$の眼鏡とギターの演奏の写真」のような複雑な入力プロンプトのセマンティックなリッチさを「$V^*$の写真」のようなよりシンプルで文脈的にリッチでない形式に還元するだけでなく、意図された概念を捉えるのに失敗する単純な出力画像をもたらす。
根本原因を制約のない最適化とみなし、学習された埋め込み$V^*$は、方向と大きさの両方で、埋め込み空間内で任意にドリフトすることができる。
そこで本研究では,事前学習した埋め込みの規模と方向を推論時に調整し,意味的崩壊問題を効果的に緩和する,シンプルで効果的なトレーニング不要な手法を提案する。
本手法は多種多様なパーソナライズ手法に適用可能であり,多様なユースケースにおけるテキスト画像アライメントの大幅な向上を示す。
私たちのコードはhttps://anonymous.4open.science/r/Embedding-Adjustment.comで匿名で公開されています。
関連論文リスト
- All in an Aggregated Image for In-Image Learning [22.605706711147405]
本稿では,In-Image Learning (I$2$L) と呼ばれる新しいコンテキスト内学習(ICL)機構を提案する。
I$2$Lは、実演例、視覚的手がかり、思考の連鎖的推論を集約されたイメージに組み合わせている。
本研究では,MathVista 上で I$2$L と I$2$L-Hybrid の有効性を評価するための広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-28T01:32:59Z) - Multi-Concept T2I-Zero: Tweaking Only The Text Embeddings and Nothing
Else [75.6806649860538]
我々は,事前学習した拡散モデルを用いた自然多概念生成という,より野心的な目標を考える。
マルチコンセプト生成性能を著しく低下させる概念支配と非局所的貢献を観察する。
我々は、より現実的なマルチコンセプトのテキスト・ツー・イメージ生成のために、テキストの埋め込みを微調整することで、上記の問題を克服する最小の低コストのソリューションを設計する。
論文 参考訳(メタデータ) (2023-10-11T12:05:44Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation [59.44301617306483]
高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。
提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
論文 参考訳(メタデータ) (2023-02-27T14:49:53Z) - Rethinking Generalization in Few-Shot Classification [28.809141478504532]
単一のイメージレベルのアノテーションは、しばしば画像の内容の小さなサブセットを正しく記述するだけである。
本稿では、textitfew-shot Learning$の文脈における意味を詳しく調べる。
我々は、きめ細かいラベルの欠如を克服するため、マスク付き画像モデリングによるネットワークの教師なしトレーニングの最近の進歩の上に構築する。
論文 参考訳(メタデータ) (2022-06-15T03:05:21Z) - Making Heads or Tails: Towards Semantically Consistent Visual
Counterfactuals [31.375504774744268]
視覚的対物的説明は、クエリ画像内の画像領域を、イントラクタ画像から領域に置き換えて、変換された画像に対するシステムの判断がイントラクタクラスに変化するようにする。
本稿では2つの重要なアイデアに基づいて視覚的対実的説明を計算するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-24T07:26:11Z) - Contrastive Learning for Unpaired Image-to-Image Translation [64.47477071705866]
画像から画像への変換では、出力の各パッチは、入力中の対応するパッチの内容を、ドメインに依存しない形で反映すべきである。
本研究では,両者の相互情報を最大化するために,コントラスト学習に基づく枠組みを提案する。
筆者らのフレームワークは、画質の向上とトレーニング時間の短縮を図りながら、画像から画像への翻訳設定の一方的な翻訳を可能にすることを実証している。
論文 参考訳(メタデータ) (2020-07-30T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。