論文の概要: Training-Free Multi-Concept Image Editing
- arxiv url: http://arxiv.org/abs/2602.20839v1
- Date: Tue, 24 Feb 2026 12:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.745611
- Title: Training-Free Multi-Concept Image Editing
- Title(参考訳): 学習不要なマルチコンセプト画像編集
- Authors: Niki Foteinopoulou, Ignas Budvytis, Stephan Liwicki,
- Abstract要約: 概念ベース画像編集のためのトレーニング不要なフレームワークを提案する。
本手法は,拡散過程において,複数の視覚概念を直接的に組み合わせ,制御することを可能にする。
InstructPix2 と ComposLoRA ベンチマークでは,既存のトレーニング不要な拡散編集手法に対して一貫した改善が見られた。
- 参考スコア(独自算出の注目度): 14.75123947134721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Editing images with diffusion models without training remains challenging. While recent optimisation-based methods achieve strong zero-shot edits from text, they struggle to preserve identity or capture details that language alone cannot express. Many visual concepts such as facial structure, material texture, or object geometry are impossible to express purely through text prompts alone. To address this gap, we introduce a training-free framework for concept-based image editing, which unifies Optimised DDS with LoRA-driven concept composition, where the training data of the LoRA represent the concept. Our approach enables combining and controlling multiple visual concepts directly within the diffusion process, integrating semantic guidance from text with low-level cues from pretrained concept adapters. We further refine DDS for stability and controllability through ordered timesteps, regularisation, and negative-prompt guidance. Quantitative and qualitative results demonstrate consistent improvements over existing training-free diffusion editing methods on InstructPix2Pix and ComposLoRA benchmarks. Code will be made publicly available.
- Abstract(参考訳): トレーニングなしで拡散モデルで画像を編集することは依然として困難である。
最近の最適化ベースの手法は、テキストから強力なゼロショット編集を実現するが、言語だけでは表現できないアイデンティティの保存や詳細の取得に苦慮している。
顔の構造、材料テクスチャ、オブジェクト幾何学といった多くの視覚概念は、テキストプロンプトだけで純粋に表現することは不可能である。
このギャップに対処するために,概念ベース画像編集のためのトレーニングフリーフレームワークを導入する。このフレームワークは,最適化DSをLoRA駆動のコンセプト構成と統合し,LoRAのトレーニングデータが概念を表す。
提案手法は,テキストからのセマンティックガイダンスと事前学習された概念アダプタからの低レベルな手がかりを統合することで,拡散過程内での複数の視覚概念の結合と制御を可能にする。
さらに、順序付けられたタイムステップ、正規化、負のプロンプトガイダンスを通じて、安定性と制御性のためにDDSをさらに洗練する。
InstructPix2Pix と ComposLoRA ベンチマークでは,既存のトレーニング不要な拡散編集法よりも一貫した改善が見られた。
コードは公開されます。
関連論文リスト
- SPIE: Semantic and Structural Post-Training of Image Editing Diffusion Models with AI feedback [28.807572302899004]
SPIEは、命令ベースの画像編集拡散モデルの意味的および構造的後学習のための新しいアプローチである。
広範な人間のアノテーションに頼ることなく、拡散モデルと人間の嗜好を一致させるオンライン強化学習フレームワークを導入する。
実験結果から,SPIEは複雑なシーンで,わずか10ステップで複雑な編集を行うことができることがわかった。
論文 参考訳(メタデータ) (2025-04-17T10:46:39Z) - Concept Lancet: Image Editing with Compositional Representation Transplant [58.9421919837084]
Concept Lancetは、画像編集における原則的表現操作のためのゼロショットプラグイン・アンド・プレイフレームワークである。
本稿では,抽出された視覚概念の表現の疎線型結合として,潜時(テキスト埋め込み,拡散スコア)空間におけるソース入力を分解する。
我々は、対応する編集方向を強制するために、カスタマイズされた概念移植プロセスを実行する。
論文 参考訳(メタデータ) (2025-04-03T17:59:58Z) - Contrastive Learning Guided Latent Diffusion Model for Image-to-Image Translation [7.218556478126324]
拡散モデルはテキスト誘導画像翻訳のための多彩で高品質な画像において優れた性能を示した。
pix2pix-zeroConはゼロショット拡散に基づく手法で、パッチワイドのコントラスト損失を利用して追加のトレーニングを不要にする。
我々のアプローチでは、追加のトレーニングは必要とせず、事前訓練されたテキスト-画像拡散モデルで直接動作する。
論文 参考訳(メタデータ) (2025-03-26T12:15:25Z) - Personalize Anything for Free with Diffusion Transformer [20.385520869825413]
最近のトレーニングフリーアプローチはアイデンティティの保存、適用性、拡散トランスフォーマ(DiT)との互換性に苦慮している
既往のDiTの可能性を明らかにし,デノベーショントークンを参照対象のトークンに置き換えることで,ゼロショット対象の再構成を実現する。
本報告では,DiTにおける画像のパーソナライズを実現するトレーニングフリーフレームワークである textbfPersonalize Anything を提案する。1)早期注入による被写体一貫性を強制し,後期正規化による柔軟性を高めるタイムステップ適応トークン置換,2) 構造多様性を高めるためのパッチ摂動戦略。
論文 参考訳(メタデータ) (2025-03-16T17:51:16Z) - PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。
提案手法は, 利用者の66~90%に好まれる。
論文 参考訳(メタデータ) (2025-02-06T13:08:43Z) - Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。
これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文 参考訳(メタデータ) (2024-12-30T16:56:44Z) - Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。
提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。