論文の概要: ConceptPrism: Concept Disentanglement in Personalized Diffusion Models via Residual Token Optimization
- arxiv url: http://arxiv.org/abs/2602.19575v1
- Date: Mon, 23 Feb 2026 07:46:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.717794
- Title: ConceptPrism: Concept Disentanglement in Personalized Diffusion Models via Residual Token Optimization
- Title(参考訳): ConceptPrism:Residual Token Optimizationによる個人化拡散モデルにおける概念展開
- Authors: Minseo Kim, Minchan Kwon, Dongyeun Lee, Yunho Jeon, Junmo Kim,
- Abstract要約: ConceptPrismは、画像固有の残留物から共有視覚概念を自動的に切り離す新しいフレームワークである。
実験では、ConceptPrismは概念の絡み合いを効果的に解決し、忠実さと整合性の間のトレードオフを著しく改善する。
- 参考スコア(独自算出の注目度): 11.472088067393074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Personalized text-to-image generation suffers from concept entanglement, where irrelevant residual information from reference images is captured, leading to a trade-off between concept fidelity and text alignment. Recent disentanglement approaches attempt to solve this utilizing manual guidance, such as linguistic cues or segmentation masks, which limits their applicability and fails to fully articulate the target concept. In this paper, we propose ConceptPrism, a novel framework that automatically disentangles the shared visual concept from image-specific residuals by comparing images within a set. Our method jointly optimizes a target token and image-wise residual tokens using two complementary objectives: a reconstruction loss to ensure fidelity, and a novel exclusion loss that compels residual tokens to discard the shared concept. This process allows the target token to capture the pure concept without direct supervision. Extensive experiments demonstrate that ConceptPrism effectively resolves concept entanglement, achieving a significantly improved trade-off between fidelity and alignment.
- Abstract(参考訳): パーソナライズされたテキスト・ツー・イメージ生成は概念の絡み合いに悩まされ、参照画像からの無関係な残余情報がキャプチャされ、概念の忠実さとテキストアライメントのトレードオフにつながる。
近年, 言語的手がかりやセグメンテーションマスクなどの手動指導を用いて, 適用性を制限し, 目標概念を完全に具体化できない手法が提案されている。
本稿では,集合内の画像を比較することで,画像固有残差から共有視覚概念を自動的に切り離す新しいフレームワークであるConceptPrismを提案する。
提案手法は,2つの相補的な目的,すなわち忠実度を確保するための再構成損失と,共有概念を捨てるために残留トークンを補完する新たな排他的損失の2つを用いて,目標トークンと画像的残留トークンを協調的に最適化する。
このプロセスにより、ターゲットトークンは直接の監督なしに純粋な概念をキャプチャできる。
広範な実験により、ConceptPrismは概念の絡み合いを効果的に解決し、忠実さと整合性の間のトレードオフを著しく改善することを示した。
関連論文リスト
- Enhancing Concept Localization in CLIP-based Concept Bottleneck Models [11.592826680892367]
概念ボトルネックモデル(CBM)は明示的な概念アノテーションを必要とせず、代わりにゼロショットでCLIPを用いて抽出した概念に依存していることを示す。
本稿では,画像の埋め込みをアンタングル化し,対象とする概念に対応する画素をローカライズする手法である,局所的解釈可能性(CHILI)による概念幻覚抑制について紹介する。
論文 参考訳(メタデータ) (2025-10-08T15:07:16Z) - Comparison Reveals Commonality: Customized Image Generation through Contrastive Inversion [22.481176245267328]
本稿では,入力画像の比較を付加情報に頼ることなく,共通概念を識別する手法であるContrastive Inversionを提案する。
我々は、画像的に補助的なテキストトークンとともに、コントラスト学習を用いてターゲットトークンを訓練し、ターゲットの真の意味をよく理解する。
論文 参考訳(メタデータ) (2025-08-11T08:36:29Z) - ACE: Attentional Concept Erasure in Diffusion Models [0.0]
Attentional Concept Erasureは、クローズドフォームのアテンション操作と軽量な微調整を統合している。
ACEは最先端の概念の除去とロバスト性を実現する。
従来の方法と比較して、ACEは一般性(概念と関連する用語)と特異性(無関係なコンテンツを保存する)のバランスが良い。
論文 参考訳(メタデータ) (2025-04-16T08:16:28Z) - Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models [56.35484513848296]
FADE(Fine grained Attenuation for Diffusion Erasure)は、テキストから画像への生成モデルのための非学習アルゴリズムである。
関連する概念に最小限の影響で目標概念を排除し、最先端の手法よりも保持性能が12%向上した。
論文 参考訳(メタデータ) (2025-03-25T15:49:48Z) - OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。
我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。
提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-16T18:59:52Z) - Concept Conductor: Orchestrating Multiple Personalized Concepts in Text-to-Image Synthesis [14.21719970175159]
コンセプトコンダクタは、マルチコンセプトのカスタマイズにおいて、視覚的忠実さと正確なレイアウトを保証するように設計されている。
本稿では,各概念の生成領域を特定するために形状認識マスクを用いた概念注入手法を提案する。
本手法は,様々な概念の組み合わせをサポートし,視覚的に類似した概念を扱う場合でも高い忠実性を維持する。
論文 参考訳(メタデータ) (2024-08-07T08:43:58Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Visual Concepts Tokenization [65.61987357146997]
本稿では,教師なしトランスフォーマーに基づく視覚概念トークン化フレームワーク VCT を提案する。
これらの概念トークンを得るためには、概念トークン間の自己注意なしで画像トークン層から視覚情報を抽出するために、クロスアテンションのみを用いる。
さらに,異なる概念トークンが独立した視覚概念を表現することを容易にするために,概念分離損失を提案する。
論文 参考訳(メタデータ) (2022-05-20T11:25:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。