Fugu-MT 論文翻訳(概要): Training-Free Multi-Concept Image Editing

論文の概要: Training-Free Multi-Concept Image Editing

arxiv url: http://arxiv.org/abs/2602.20839v1
Date: Tue, 24 Feb 2026 12:27:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.745611
Title: Training-Free Multi-Concept Image Editing
Title（参考訳）: 学習不要なマルチコンセプト画像編集
Authors: Niki Foteinopoulou, Ignas Budvytis, Stephan Liwicki,
Abstract要約: 概念ベース画像編集のためのトレーニング不要なフレームワークを提案する。本手法は,拡散過程において,複数の視覚概念を直接的に組み合わせ,制御することを可能にする。 InstructPix2 と ComposLoRA ベンチマークでは,既存のトレーニング不要な拡散編集手法に対して一貫した改善が見られた。
参考スコア（独自算出の注目度）: 14.75123947134721
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Editing images with diffusion models without training remains challenging. While recent optimisation-based methods achieve strong zero-shot edits from text, they struggle to preserve identity or capture details that language alone cannot express. Many visual concepts such as facial structure, material texture, or object geometry are impossible to express purely through text prompts alone. To address this gap, we introduce a training-free framework for concept-based image editing, which unifies Optimised DDS with LoRA-driven concept composition, where the training data of the LoRA represent the concept. Our approach enables combining and controlling multiple visual concepts directly within the diffusion process, integrating semantic guidance from text with low-level cues from pretrained concept adapters. We further refine DDS for stability and controllability through ordered timesteps, regularisation, and negative-prompt guidance. Quantitative and qualitative results demonstrate consistent improvements over existing training-free diffusion editing methods on InstructPix2Pix and ComposLoRA benchmarks. Code will be made publicly available.
Abstract（参考訳）: トレーニングなしで拡散モデルで画像を編集することは依然として困難である。最近の最適化ベースの手法は、テキストから強力なゼロショット編集を実現するが、言語だけでは表現できないアイデンティティの保存や詳細の取得に苦慮している。顔の構造、材料テクスチャ、オブジェクト幾何学といった多くの視覚概念は、テキストプロンプトだけで純粋に表現することは不可能である。このギャップに対処するために,概念ベース画像編集のためのトレーニングフリーフレームワークを導入する。このフレームワークは,最適化DSをLoRA駆動のコンセプト構成と統合し,LoRAのトレーニングデータが概念を表す。提案手法は,テキストからのセマンティックガイダンスと事前学習された概念アダプタからの低レベルな手がかりを統合することで,拡散過程内での複数の視覚概念の結合と制御を可能にする。さらに、順序付けられたタイムステップ、正規化、負のプロンプトガイダンスを通じて、安定性と制御性のためにDDSをさらに洗練する。 InstructPix2Pix と ComposLoRA ベンチマークでは,既存のトレーニング不要な拡散編集法よりも一貫した改善が見られた。コードは公開されます。

関連論文リスト

EditThinker: Unlocking Iterative Reasoning for Any Image Editor [72.28251670314451]
編集中に「考える」ための熟考的な編集フレームワークを提案する。このフレームワークの推論エンジンとして機能するために、単一のMLLM、EditThinkerをトレーニングします。我々は、強化学習を用いて、EditThinkerの思考をその編集と整合させ、よりターゲットを絞った命令改善を生成する。
論文参考訳（メタデータ） (2025-12-05T18:58:09Z)
Semantic Anchoring for Robust Personalization in Text-to-Image Diffusion Models [9.94436942959918]
テキスト・ツー・イメージ拡散モデルでは,限られた数の参照画像から新しい視覚概念を学習する。本稿では,新しい概念を対応する分布に基礎付けることで適応を導くセマンティックアンカーを提案する。このアンカーリングにより、モデルは新しい概念を安定かつ制御された方法で適応させ、事前訓練された分布をパーソナライズされた領域へと拡張する。
論文参考訳（メタデータ） (2025-11-27T09:16:33Z)
AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文参考訳（メタデータ） (2025-06-16T09:42:38Z)
SPIE: Semantic and Structural Post-Training of Image Editing Diffusion Models with AI feedback [28.807572302899004]
SPIEは、命令ベースの画像編集拡散モデルの意味的および構造的後学習のための新しいアプローチである。広範な人間のアノテーションに頼ることなく、拡散モデルと人間の嗜好を一致させるオンライン強化学習フレームワークを導入する。実験結果から,SPIEは複雑なシーンで,わずか10ステップで複雑な編集を行うことができることがわかった。
論文参考訳（メタデータ） (2025-04-17T10:46:39Z)
Concept Lancet: Image Editing with Compositional Representation Transplant [58.9421919837084]
Concept Lancetは、画像編集における原則的表現操作のためのゼロショットプラグイン・アンド・プレイフレームワークである。本稿では,抽出された視覚概念の表現の疎線型結合として,潜時(テキスト埋め込み,拡散スコア)空間におけるソース入力を分解する。我々は、対応する編集方向を強制するために、カスタマイズされた概念移植プロセスを実行する。
論文参考訳（メタデータ） (2025-04-03T17:59:58Z)
Contrastive Learning Guided Latent Diffusion Model for Image-to-Image Translation [7.218556478126324]
拡散モデルはテキスト誘導画像翻訳のための多彩で高品質な画像において優れた性能を示した。 pix2pix-zeroConはゼロショット拡散に基づく手法で、パッチワイドのコントラスト損失を利用して追加のトレーニングを不要にする。我々のアプローチでは、追加のトレーニングは必要とせず、事前訓練されたテキスト-画像拡散モデルで直接動作する。
論文参考訳（メタデータ） (2025-03-26T12:15:25Z)
Personalize Anything for Free with Diffusion Transformer [20.385520869825413]
最近のトレーニングフリーアプローチはアイデンティティの保存、適用性、拡散トランスフォーマ(DiT)との互換性に苦慮している既往のDiTの可能性を明らかにし,デノベーショントークンを参照対象のトークンに置き換えることで,ゼロショット対象の再構成を実現する。本報告では,DiTにおける画像のパーソナライズを実現するトレーニングフリーフレームワークである textbfPersonalize Anything を提案する。1)早期注入による被写体一貫性を強制し,後期正規化による柔軟性を高めるタイムステップ適応トークン置換,2) 構造多様性を高めるためのパッチ摂動戦略。
論文参考訳（メタデータ） (2025-03-16T17:51:16Z)
PartEdit: Fine-Grained Image Editing using Pre-Trained Diffusion Models [80.98455219375862]
本稿では,事前学習した拡散モデルに基づくオブジェクト部品に対する最初のテキストベースの画像編集手法を提案する。提案手法は, 利用者の66～90%に好まれる。
論文参考訳（メタデータ） (2025-02-06T13:08:43Z)
Edicho: Consistent Image Editing in the Wild [90.42395533938915]
エディコは拡散モデルに基づく訓練なしの解を踏む。これは、明示的な画像対応を使って直接編集する基本的な設計原理を特徴としている。
論文参考訳（メタデータ） (2024-12-30T16:56:44Z)
Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文参考訳（メタデータ） (2024-11-21T18:59:51Z)
TALE: Training-free Cross-domain Image Composition via Adaptive Latent Manipulation and Energy-guided Optimization [59.412236435627094]
TALEは、テキストから画像への拡散モデルの生成機能を利用する、トレーニング不要のフレームワークである。 TALEにはAdaptive Latent ManipulationとEnergy-Guided Latent Optimizationという2つのメカニズムが備わっている。本実験は,TALEが従来のベースラインを超え,画像誘導合成における最先端性能を実現することを示す。
論文参考訳（メタデータ） (2024-08-07T08:52:21Z)
FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文参考訳（メタデータ） (2024-07-06T03:35:43Z)
Diffusion Model-Based Image Editing: A Survey [46.244266782108234]
様々な画像生成や編集作業のための強力なツールとして,拡散モデルが登場している。本稿では,画像編集のための拡散モデルを用いた既存手法の概要について述べる。テキスト誘導画像編集アルゴリズムの性能を更に評価するために,系統的なベンチマークであるEditEvalを提案する。
論文参考訳（メタデータ） (2024-02-27T14:07:09Z)
Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文参考訳（メタデータ） (2023-11-30T15:06:10Z)
LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。 LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文参考訳（メタデータ） (2023-11-21T04:28:12Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。