論文の概要: UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying
- arxiv url: http://arxiv.org/abs/2508.03142v1
- Date: Tue, 05 Aug 2025 06:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.819097
- Title: UniEdit-I: Training-free Image Editing for Unified VLM via Iterative Understanding, Editing and Verifying
- Title(参考訳): UniEdit-I: 反復的理解、編集、検証による統一VLMのための訓練不要の画像編集
- Authors: Chengyu Bai, Jintao Chen, Xiang Bai, Yilong Chen, Qi She, Ming Lu, Shanghang Zhang,
- Abstract要約: 画像編集機能を備えた統合VLMを実現するために,UniEdit-Iという新しいトレーニングフリーフレームワークを導入する。
我々は最新のBLIP3-oに基づいて提案手法を実装し,GEdit-BenchベンチマークでSOTA(State-of-the-art)性能を達成した。
- 参考スコア(独自算出の注目度): 64.5307229755533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, unified vision-language models (VLMs) have rapidly advanced, effectively tackling both visual understanding and generation tasks within a single design. While many unified VLMs have explored various design choices, the recent hypothesis from OpenAI's GPT-4o suggests a promising generation pipeline: Understanding VLM->Visual Feature->Projector->Diffusion Model->Image. The understanding VLM is frozen, and only the generation-related modules are trained. This pipeline maintains the strong capability of understanding VLM while enabling the image generation ability of the unified VLM. Although this pipeline has shown very promising potential for the future development of unified VLM, how to easily enable image editing capability is still unexplored. In this paper, we introduce a novel training-free framework named UniEdit-I to enable the unified VLM with image editing capability via three iterative steps: understanding, editing, and verifying. 1. The understanding step analyzes the source image to create a source prompt through structured semantic analysis and makes minimal word replacements to form the target prompt based on the editing instruction. 2. The editing step introduces a time-adaptive offset, allowing for coherent editing from coarse to fine throughout the denoising process. 3. The verification step checks the alignment between the target prompt and the intermediate edited image, provides automatic consistency scores and corrective feedback, and determines whether to stop early or continue the editing loop. This understanding, editing, and verifying loop iterates until convergence, delivering high-fidelity editing in a training-free manner. We implemented our method based on the latest BLIP3-o and achieved state-of-the-art (SOTA) performance on the GEdit-Bench benchmark.
- Abstract(参考訳): 近年、統合視覚言語モデル (VLM) は急速に進歩し、1つの設計において視覚的理解と生成の両方に効果的に取り組むようになった。
多くの統一VLMは様々な設計選択を探索してきたが、OpenAIのGPT-4oの最近の仮説では、将来性のある生成パイプラインが提案されている。
VLMの理解は凍結され、生成関連モジュールのみがトレーニングされる。
このパイプラインは、統一されたVLMの画像生成能力を確保しながら、VLMを理解する強力な能力を維持している。
このパイプラインは、統合VLMの将来的な開発に非常に有望な可能性を示してきたが、画像編集機能を容易に活用する方法はまだ解明されていない。
本稿では,UniEdit-Iという新しいトレーニングフリーフレームワークを導入し,画像編集機能を備えた統一VLMを実現する。
1. 理解ステップは、ソースイメージを分析し、構造化意味分析を通じてソースプロンプトを作成し、最小限の単語置換を行い、編集命令に基づいてターゲットプロンプトを形成する。
2. 編集ステップでは、時間適応オフセットを導入し、デノナイズプロセスを通して粗いものから細かいものへのコヒーレントな編集を可能にする。
3.検証ステップは、ターゲットプロンプトと中間編集画像のアライメントをチェックし、自動整合スコアと補正フィードバックを提供し、早期停止するか、編集ループを継続するかを決定する。
この理解、編集、検証は収束するまで繰り返し、訓練のない方法で高忠実度編集を提供する。
我々は最新のBLIP3-oに基づいて提案手法を実装し,GEdit-BenchベンチマークでSOTA(State-of-the-art)性能を達成した。
関連論文リスト
- DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models [26.762431651154607]
テキストと視覚の両方を各キー層で修正するエディタであるDualEditを提案する。
我々は、複数のVLMバックボーンとベンチマークデータセットにわたるDualEditを評価し、最先端のVLM編集ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-16T16:04:16Z) - MIND-Edit: MLLM Insight-Driven Editing via Language-Vision Projection [13.467269066605452]
MLLMと事前学習拡散モデルを組み合わせたエンドツーエンド画像編集フレームワークであるMIND-Editを提案する。
MIND-Editは,(1)MLLMからの意味的推論に基づく曖昧なユーザ指示を明確化するテキスト命令最適化戦略,(2)MLLMの本質的な視覚的理解能力を明示的に活用して編集意図を推測するMLLM洞察駆動型編集戦略,の2つの補完戦略を導入している。
大規模な実験により、MIND-Editは、特に複雑で困難なシナリオにおいて、定量的メトリクスと視覚的品質の両方において、最先端の画像編集方法より優れていることが示された。
論文 参考訳(メタデータ) (2025-05-25T13:54:31Z) - SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing [25.8179737362091]
既存のデータセットは通常、さまざまな自動化手法を使って構築され、ノイズの多い監視信号に繋がる。
近年の取り組みは、高品質な編集画像の生成、認識タスクの事前訓練、視覚言語モデル(VLM)の導入による編集モデルの改善を試みているが、この根本的な問題を解決するには至らなかった。
本稿では,与えられた画像対に対してより効率的な編集命令を構築することで,新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-05T05:19:40Z) - ILLUME+: Illuminating Unified MLLM with Dual Visual Tokenization and Diffusion Refinement [68.05833403672274]
既存の統一モデルでは、理解、生成、編集という3つの基本的な機能を統一モデルで扱うのに苦労している。
ILLUME+は、きめ細かいテクスチャとテキスト整合したセマンティクスを保存できる統合されたデュアルビジュアルトークンーであるDualViTokを導入した。
また、画像デトケナイザとして拡散モデルを用いて、生成品質と高効率超解像を実現する。
論文 参考訳(メタデータ) (2025-04-02T17:45:00Z) - FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z) - Lifelong Knowledge Editing for Vision Language Models with Low-Rank Mixture-of-Experts [17.376346967267327]
我々は、生涯LLM編集とビジョンLLM編集のギャップを埋めるために、LIfelong Vision言語modEl EditのLiveEditを提案する。
ビジュアルセマンティック知識を活用するためにハードフィルタリング機構を開発し、入力クエリの視覚的に無関係な専門家を排除した。
視覚的に関係のある専門家を統合するために,テキストの意味的関連性に基づくソフトルーティング機構を導入し,マルチエキスパート融合を実現する。
論文 参考訳(メタデータ) (2024-11-23T03:19:40Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。