論文の概要: GIDE: Unlocking Diffusion LLMs for Precise Training-Free Image Editing
- arxiv url: http://arxiv.org/abs/2603.21176v1
- Date: Sun, 22 Mar 2026 11:33:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.277959
- Title: GIDE: Unlocking Diffusion LLMs for Precise Training-Free Image Editing
- Title(参考訳): GIDE: 精密なトレーニング不要の画像編集のための拡散LDMのアンロック
- Authors: Zifeng Zhu, Jiaming Han, Jiaxiang Zhao, Minnan Luo, Xiangyu Yue,
- Abstract要約: GIDE(Grounded Inversion forDLLM Image Editing)は,連続拡散モデルと学習不要の画像編集のギャップを埋める統合フレームワークである。
GIDEには、離散トークン空間内の遅延ノイズパターンを正確にキャプチャする新しい離散ノイズ反転機構が組み込まれている。
既存の単一ステップ評価プロトコルの限界を克服するために, GIDE-Benchを導入する。
- 参考スコア(独自算出の注目度): 30.230365555184193
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Diffusion Large Language Models (DLLMs) have demonstrated remarkable capabilities in multi-modal generation, performing precise, training-free image editing remains an open challenge. Unlike continuous diffusion models, the discrete tokenization inherent in DLLMs hinders the application of standard noise inversion techniques, often leading to structural degradation during editing. In this paper, we introduce GIDE (Grounded Inversion for DLLM Image Editing), a unified framework designed to bridge this gap. GIDE incorporates a novel Discrete Noise Inversion mechanism that accurately captures latent noise patterns within the discrete token space, ensuring high-fidelity reconstruction. We then decompose the editing pipeline into grounding, inversion, and refinement stages. This design enables GIDE supporting various editing instructions (text, point and box) and operations while strictly preserving the unedited background. Furthermore, to overcome the limitations of existing single-step evaluation protocols, we introduce GIDE-Bench, a rigorous benchmark comprising 805 compositional editing scenarios guided by diverse multi-modal inputs. Extensive experiments on GIDE-Bench demonstrate that GIDE significantly outperforms prior training-free methods, improving Semantic Correctness by 51.83% and Perceptual Quality by 50.39%. Additional evaluations on ImgEdit-Bench confirm its broad applicability, demonstrating consistent gains over trained baselines and yielding photorealistic consistency on par with leading models.
- Abstract(参考訳): Diffusion Large Language Models (DLLM) はマルチモーダル生成において顕著な能力を示したが、正確なトレーニング不要の画像編集は依然としてオープンな課題である。
連続拡散モデルとは異なり、DLLMに固有の離散トークン化は標準的なノイズ反転技術の適用を妨げるため、しばしば編集時に構造劣化を引き起こす。
本稿では,このギャップを埋めるための統合フレームワークであるGIDE(Grounded Inversion for DLLM Image Editing)を紹介する。
GIDEには、離散トークン空間内の遅延ノイズパターンを正確に捕捉し、高忠実度再構成を保証する新しい離散ノイズ反転機構が組み込まれている。
次に、編集パイプラインをグラウンド化、インバージョン化、改善段階に分解する。
この設計により、GIDEは、編集されていない背景を厳密に保存しながら、様々な編集命令(テキスト、ポイント、ボックス)と操作をサポートすることができる。
さらに,既存のシングルステップ評価プロトコルの限界を克服するために,多種多様なマルチモーダル入力によって誘導される805の合成編集シナリオからなる厳密なベンチマークであるGIDE-Benchを導入する。
GIDE-Benchの大規模な実験により、GIDEはトレーニングなしの手法よりも大幅に優れ、セマンティックの精度は51.83%向上し、知覚品質は50.39%向上した。
ImgEdit-Benchのさらなる評価は、その広範な適用性を確認し、トレーニングされたベースラインよりも一貫した利得を示し、主要なモデルと同等にフォトリアリスティックな一貫性を与える。
関連論文リスト
- Training-Free Multi-Concept Image Editing [14.75123947134721]
Concept Distillation Sampling (CDS)は、ターゲットレスマルチコンセプト画像編集のためのトレーニング不要のフレームワークである。
これは、高度に安定な蒸留バックボーンを統合することによって、従来の手法の言語的ボトルネックを克服する。
本手法は,所望の編集の参照サンプルを必要とせずに,インスタンスの忠実度を保存する。
論文 参考訳(メタデータ) (2026-02-24T12:27:51Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - Schedule Your Edit: A Simple yet Effective Diffusion Noise Schedule for Image Editing [42.45138713525929]
効率的な編集では、ソースイメージを潜在空間に反転させる必要があり、このプロセスはDDIMの反転に固有の予測エラーによってしばしば妨げられる。
特異性を排除し、インバージョン安定性を改善し、画像編集のためのより良いノイズ空間を提供する新しいノイズスケジュールであるロジスティックスケジュールを導入する。
提案手法では追加のトレーニングは必要とせず,既存の編集手法と互換性がある。
論文 参考訳(メタデータ) (2024-10-24T14:07:02Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - High-Fidelity Diffusion-based Image Editing [19.85446433564999]
拡散モデルの編集性能は、デノナイジングステップが増加しても、もはや満足できない傾向にある。
本稿では,マルコフ加群が残差特徴を持つ拡散モデル重みを変調するために組み込まれている革新的なフレームワークを提案する。
本稿では,編集過程における誤り伝播の最小化を目的とした新しい学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-12-25T12:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。