論文の概要: SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing
- arxiv url: http://arxiv.org/abs/2505.02370v1
- Date: Mon, 05 May 2025 05:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.566399
- Title: SuperEdit: Rectifying and Facilitating Supervision for Instruction-Based Image Editing
- Title(参考訳): SuperEdit: インストラクションベースの画像編集のためのスーパービジョンの修正とファシリテート
- Authors: Ming Li, Xin Gu, Fan Chen, Xiaoying Xing, Longyin Wen, Chen Chen, Sijie Zhu,
- Abstract要約: 既存のデータセットは通常、さまざまな自動化手法を使って構築され、ノイズの多い監視信号に繋がる。
近年の取り組みは、高品質な編集画像の生成、認識タスクの事前訓練、視覚言語モデル(VLM)の導入による編集モデルの改善を試みているが、この根本的な問題を解決するには至らなかった。
本稿では,与えられた画像対に対してより効率的な編集命令を構築することで,新しい手法を提案する。
- 参考スコア(独自算出の注目度): 25.8179737362091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the challenges of manually collecting accurate editing data, existing datasets are typically constructed using various automated methods, leading to noisy supervision signals caused by the mismatch between editing instructions and original-edited image pairs. Recent efforts attempt to improve editing models through generating higher-quality edited images, pre-training on recognition tasks, or introducing vision-language models (VLMs) but fail to resolve this fundamental issue. In this paper, we offer a novel solution by constructing more effective editing instructions for given image pairs. This includes rectifying the editing instructions to better align with the original-edited image pairs and using contrastive editing instructions to further enhance their effectiveness. Specifically, we find that editing models exhibit specific generation attributes at different inference steps, independent of the text. Based on these prior attributes, we define a unified guide for VLMs to rectify editing instructions. However, there are some challenging editing scenarios that cannot be resolved solely with rectified instructions. To this end, we further construct contrastive supervision signals with positive and negative instructions and introduce them into the model training using triplet loss, thereby further facilitating supervision effectiveness. Our method does not require the VLM modules or pre-training tasks used in previous work, offering a more direct and efficient way to provide better supervision signals, and providing a novel, simple, and effective solution for instruction-based image editing. Results on multiple benchmarks demonstrate that our method significantly outperforms existing approaches. Compared with previous SOTA SmartEdit, we achieve 9.19% improvements on the Real-Edit benchmark with 30x less training data and 13x smaller model size.
- Abstract(参考訳): 手動で正確な編集データを集めるという課題のため、既存のデータセットは通常、様々な自動化手法を使って構築される。
近年の取り組みは、高品質な編集画像の生成、認識タスクの事前訓練、視覚言語モデル(VLM)の導入による編集モデルの改善を試みているが、この根本的な問題を解決するには至らなかった。
本稿では,与えられた画像対に対してより効率的な編集命令を構築することで,新しい手法を提案する。
これには、オリジナルの編集されたイメージペアとの整合性を改善するための編集命令の修正と、その効果をさらに高めるためにコントラスト的な編集命令の使用が含まれる。
具体的には、テキストとは独立に、特定の生成属性を異なる推論ステップで表示する。
これらの属性に基づいて,VLMの編集手順の修正のための統一的なガイドを定義する。
しかし、修正命令だけでは解決できない編集シナリオがいくつか存在する。
この目的のために, 正および負の指示で対照的な監視信号を構築し, 三重項損失を用いたモデルトレーニングに導入することにより, 監督効果をさらに促進する。
提案手法では,従来のVLMモジュールや事前学習作業は必要とせず,よりダイレクトで効率的な監視信号提供方法を提供し,命令ベースの画像編集のための新しい,シンプルで効果的なソリューションを提供する。
複数のベンチマークの結果,提案手法が既存手法より大幅に優れていることが示された。
以前のSOTA SmartEditと比較して、30倍のトレーニングデータと13倍のモデルサイズを持つReal-Editベンチマークで9.19%の改善を実現しています。
関連論文リスト
- FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z) - UIP2P: Unsupervised Instruction-based Image Editing via Cycle Edit Consistency [69.33072075580483]
本研究では,教師なしの教師なし画像編集モデルを提案する。
CEC(Cycle Edit Consistency)と呼ばれる新しい編集機構を導入することで,これらの課題に対処する。
CECは1つのトレーニングステップで前方と後方の編集を適用し、画像と注意空間の一貫性を強制する。
論文 参考訳(メタデータ) (2024-12-19T18:59:58Z) - AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。