論文の概要: Training-Free Disentangled Text-Guided Image Editing via Sparse Latent Constraints
- arxiv url: http://arxiv.org/abs/2512.21637v1
- Date: Thu, 25 Dec 2025 11:38:10 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:05:00.051244
- Title: Training-Free Disentangled Text-Guided Image Editing via Sparse Latent Constraints
- Title(参考訳): Sparse Latent Constraints を用いた自由離角テキストガイド画像編集
- Authors: Mutiara Shabrina, Nova Kurnia Putri, Jefri Satria Ferdiansyah, Sabita Khansa Dewi, Novanto Yudistira,
- Abstract要約: テキスト駆動の画像操作は、しばしば属性の絡み合いに悩まされる。
Predict, Prevent, and Evaluate frameworkは、事前訓練された視覚言語モデルを活用して、アンタングル編集に利用することでこの問題に対処する。
実験の結果、提案手法はより集中的で制御された編集を強制し、顔認証を維持しながら意図しない非ターゲット属性の変化を効果的に低減することを示した。
- 参考スコア(独自算出の注目度): 2.4140502941897544
- License:
- Abstract: Text-driven image manipulation often suffers from attribute entanglement, where modifying a target attribute (e.g., adding bangs) unintentionally alters other semantic properties such as identity or appearance. The Predict, Prevent, and Evaluate (PPE) framework addresses this issue by leveraging pre-trained vision-language models for disentangled editing. In this work, we analyze the PPE framework, focusing on its architectural components, including BERT-based attribute prediction and StyleGAN2-based image generation on the CelebA-HQ dataset. Through empirical analysis, we identify a limitation in the original regularization strategy, where latent updates remain dense and prone to semantic leakage. To mitigate this issue, we introduce a sparsity-based constraint using L1 regularization on latent space manipulation. Experimental results demonstrate that the proposed approach enforces more focused and controlled edits, effectively reducing unintended changes in non-target attributes while preserving facial identity.
- Abstract(参考訳): テキスト駆動の画像操作は、属性の絡み合いに悩まされることが多く、ターゲット属性(例えば、バグを追加するなど)を変更すると、IDや外観などの他のセマンティックプロパティが意図せずに変更される。
Predict, Prevent, and Evaluate (PPE)フレームワークは、事前学習された視覚言語モデルを利用して、アンタングル編集を行う。
本研究では,BERTに基づく属性予測やCelebA-HQデータセット上でのStyleGAN2に基づく画像生成など,アーキテクチャコンポーネントを中心にPPEフレームワークを分析した。
経験的分析により、潜伏更新が密接なままであり、セマンティックリークの傾向にある元の正規化戦略の限界を特定する。
この問題を軽減するために,L1正則化を用いた空間操作のスペーサ性に基づく制約を導入する。
実験の結果、提案手法はより集中的で制御された編集を強制し、顔認証を維持しながら意図しない非ターゲット属性の変化を効果的に低減することを示した。
関連論文リスト
- LORE: Latent Optimization for Precise Semantic Control in Rectified Flow-based Image Editing [0.276240219662896]
トレーニング不要で効率的な画像編集手法であるLOREを紹介する。
LOREは逆ノイズを直接最適化し、既存のアプローチの一般化と制御可能性の限界に対処する。
実験の結果,LOREはセマンティックアライメント,画像品質,背景忠実度において,強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-08-05T06:45:04Z) - Tuning-Free Image Editing with Fidelity and Editability via Unified Latent Diffusion Model [60.82962950960996]
拡散遅延最適化を行うチューニング不要なUnifyEditを導入する。
本研究では, 自己注意保持制約(SA)と相互注意アライメント制約(CA)の2つを開発し, テキストアライメントの強化を図る。
提案手法は,様々な編集作業における構造保存とテキストアライメントのバランスを保ち,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2025-04-08T01:02:50Z) - Addressing Text Embedding Leakage in Diffusion-based Image Editing [33.1686050396517]
本稿では属性リークに対処するフレームワークであるAttribute-Leakage-free Editing (ALE)を紹介する。
ALEは、オブジェクト制限埋め込み(ORE)とテキスト埋め込みのアンタングル、空間的に正確に注意を向けるRGB-CAM(Regional-Guided Blending for Cross-Attention Masking)、非編集コンテンツを保存するためにバックグラウンドブレンディング(Backside Blending)を組み合わせる。
論文 参考訳(メタデータ) (2024-12-06T02:10:07Z) - Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing [26.086806549826058]
テキスト誘導画像編集は、対象のテキストに基づいて修正を実装しながら、ソース画像の中核要素の保存を求める。
既存のメトリクスは、全く異なるソースイメージとターゲットテキストのペアに対して、同じ評価基準を無差別に適用する、文脈の盲点問題を持つ。
保存・修正の側面を適応的にコーディネートする文脈対応メトリックであるAugCLIPを提案する。
論文 参考訳(メタデータ) (2024-10-15T08:12:54Z) - Instilling Multi-round Thinking to Text-guided Image Generation [72.2032630115201]
シングルラウンド世代は、特に靴やスリーブのようなきめ細かい変更の領域において、重要な詳細を見落としていることが多い。
既存の手法と互換性のある,新たな自己監督型正規化,すなわちマルチラウンド正規化を導入する。
修正順序が最終結果に概して影響を与えないという観察に基づいている。
論文 参考訳(メタデータ) (2024-01-16T16:19:58Z) - Text Attribute Control via Closed-Loop Disentanglement [72.2786244367634]
本稿では,コンテンツ保存性を高めつつ,属性のロバストな制御を実現するための新しい手法を提案する。
本稿では,半教師付きコントラスト学習法を用いて,潜在空間における属性のアンタングル化を促進する。
Yelp Serviceレビューデータセット、Amazon Product Reviewデータセット、GoEmotionsデータセットを含む3つのテキストデータセットの実験を行った。
論文 参考訳(メタデータ) (2023-12-01T01:26:38Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Enjoy Your Editing: Controllable GANs for Image Editing via Latent Space
Navigation [136.53288628437355]
コントロール可能なセマンティックイメージ編集により、ユーザーはクリック数回で画像属性全体を変更できる。
現在のアプローチでは、絡み合った属性編集、グローバルなイメージアイデンティティの変更、フォトリアリズムの低下に悩まされることが多い。
本稿では,主に定性評価に焦点を当てた先行研究とは異なり,制御可能な編集性能を測定するための定量的評価手法を提案する。
論文 参考訳(メタデータ) (2021-02-01T21:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。