論文の概要: LGCC: Enhancing Flow Matching Based Text-Guided Image Editing with Local Gaussian Coupling and Context Consistency
- arxiv url: http://arxiv.org/abs/2511.01894v1
- Date: Wed, 29 Oct 2025 08:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:05.571498
- Title: LGCC: Enhancing Flow Matching Based Text-Guided Image Editing with Local Gaussian Coupling and Context Consistency
- Title(参考訳): LGCC: 局所ガウス結合とコンテキスト一貫性によるフローマッチングに基づくテキストガイド画像編集の強化
- Authors: Fangbing Liu, Pengfei Duan, Wen Li, Yi He,
- Abstract要約: ローカルガウスノイズカップリング(LGNC)とコンテンツ一貫性損失(CCL)を提案する。
LGNCは、ターゲット画像の埋め込みとその局所摂動を結合対としてモデル化することで、空間的詳細を保存している。
CCLは編集命令と画像修正のセマンティックアライメントを確保し、意図しないコンテンツ削除を防ぐ。
- 参考スコア(独自算出の注目度): 14.849085206312575
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advancements have demonstrated the great potential of flow matching-based Multimodal Large Language Models (MLLMs) in image editing. However, state-of-the-art works like BAGEL face limitations, including detail degradation, content inconsistency, and inefficiency due to their reliance on random noise initialization. To address these issues, we propose LGCC, a novel framework with two key components: Local Gaussian Noise Coupling (LGNC) and Content Consistency Loss (CCL). LGNC preserves spatial details by modeling target image embeddings and their locally perturbed counterparts as coupled pairs, while CCL ensures semantic alignment between edit instructions and image modifications, preventing unintended content removal. By integrating LGCC with the BAGEL pre-trained model via curriculum learning, we significantly reduce inference steps, improving local detail scores on I2EBench by 1.60% and overall scores by 0.53%. LGCC achieves 3x -- 5x speedup for lightweight editing and 2x for universal editing, requiring only 40% -- 50% of the inference time of BAGEL or Flux. These results demonstrate LGCC's ability to preserve detail, maintain contextual integrity, and enhance inference speed, offering a cost-efficient solution without compromising editing quality.
- Abstract(参考訳): 近年,画像編集におけるフローマッチングに基づくマルチモーダル言語モデル(MLLM)の大きな可能性を示している。
しかし、BAGELのような最先端の作品は、ノイズの初期化に依存しているため、詳細劣化、コンテンツ不整合、非効率といった制限に直面している。
これらの問題に対処するため,LGCCという,ローカルガウスノイズカップリング (LGNC) とコンテンツ一貫性損失 (CCL) の2つの主要なコンポーネントを持つ新しいフレームワークを提案する。
LGNCは、ターゲット画像の埋め込みとその局所的な乱れを結合ペアとしてモデル化することで空間的詳細を保存し、CCLは編集命令と画像修正のセマンティックアライメントを保証し、意図しないコンテンツ削除を防ぐ。
カリキュラム学習を通じて,LGCCとBAGEL事前学習モデルを統合することにより,推論ステップを大幅に削減し,I2EBenchの局所的詳細スコアを1.60%改善し,総合スコアを0.53%改善した。
LGCCは、軽量編集で5倍のスピードアップ、ユニバーサル編集で2倍のスピードアップを実現し、BAGELやFluxの推論時間の50%の40%しか必要としない。
これらの結果は、LGCCが細部を保存し、文脈の整合性を維持し、推論速度を向上し、編集品質を損なうことなくコスト効率の良いソリューションを提供することを示す。
関連論文リスト
- Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - LORE: Latent Optimization for Precise Semantic Control in Rectified Flow-based Image Editing [0.276240219662896]
トレーニング不要で効率的な画像編集手法であるLOREを紹介する。
LOREは逆ノイズを直接最適化し、既存のアプローチの一般化と制御可能性の限界に対処する。
実験の結果,LOREはセマンティックアライメント,画像品質,背景忠実度において,強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2025-08-05T06:45:04Z) - Decoupled Global-Local Alignment for Improving Compositional Understanding [19.022748171561357]
コントラスト言語-画像事前学習(CLIP)は、画像とテキストのモダリティを調整することで、複数の下流タスクで成功している。
しかし、グローバルコントラスト学習の性質は、作曲概念を理解するCLIPの能力を制限している。
本稿では,デカップリング型グローバルローカルアライメント(DeGLA)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-23T15:20:53Z) - InterLCM: Low-Quality Images as Intermediate States of Latent Consistency Models for Effective Blind Face Restoration [106.70903819362402]
拡散前駆体は、低画質画像の復元のために、復元データセットの微細調整拡散モデル(DM)によってブラインドフェイス復元(BFR)に使用されている。
我々は,その優れたセマンティック一貫性と効率のために潜在一貫性モデル(LCM)を活用するために,InterLCMを提案する。
InterLCMは、合成データセットと実世界のデータセットの両方において既存のアプローチより優れており、推論速度も高速である。
論文 参考訳(メタデータ) (2025-02-04T10:51:20Z) - Training-Free Layout-to-Image Generation with Marginal Attention Constraints [73.55660250459132]
トレーニング不要なレイアウト・トゥ・イメージ(L2I)アプローチを提案する。
具体的には、テキスト・ビジュアル・クロスアテンション・フィーチャーマップを用いて、生成された画像のレイアウトと提供された命令の不整合を定量化する。
自己アテンション特徴写像の画素間相関を利用して、交差アテンション写像を整列し、境界注意で制約された3つの損失関数を組み合わせ、潜時特徴を更新する。
論文 参考訳(メタデータ) (2024-11-15T05:44:45Z) - Enhancing Low-light Light Field Images with A Deep Compensation Unfolding Network [52.77569396659629]
本稿では,低光環境下で撮像した光場(LF)画像の復元に,DCUNet(Deep compensation network openfolding)を提案する。
このフレームワークは、中間拡張結果を使用して照明マップを推定し、展開プロセスで新しい拡張結果を生成する。
本稿では,LF画像の特徴を適切に活用するために,擬似明示的特徴相互作用モジュールを提案する。
論文 参考訳(メタデータ) (2023-08-10T07:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。