論文の概要: CompBench: Benchmarking Complex Instruction-guided Image Editing
- arxiv url: http://arxiv.org/abs/2505.12200v2
- Date: Tue, 20 May 2025 11:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.421479
- Title: CompBench: Benchmarking Complex Instruction-guided Image Editing
- Title(参考訳): CompBench: 複雑な命令誘導の画像編集のベンチマーク
- Authors: Bohan Jia, Wenxuan Huang, Yuntian Tang, Junbo Qiao, Jincheng Liao, Shaosheng Cao, Fei Zhao, Zhaopeng Feng, Zhouhong Gu, Zhenfei Yin, Lei Bai, Wanli Ouyang, Lin Chen, Fei Zhao, Zihan Wang, Yuan Xie, Shaohui Lin,
- Abstract要約: CompBenchは複雑な命令誘導画像編集のための大規模なベンチマークである。
本稿では,タスクパイプラインを調整したMLLM-ヒューマン協調フレームワークを提案する。
編集意図を4つの重要な次元に分割する命令分離戦略を提案する。
- 参考スコア(独自算出の注目度): 63.347846732450364
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While real-world applications increasingly demand intricate scene manipulation, existing instruction-guided image editing benchmarks often oversimplify task complexity and lack comprehensive, fine-grained instructions. To bridge this gap, we introduce, a large-scale benchmark specifically designed for complex instruction-guided image editing. CompBench features challenging editing scenarios that incorporate fine-grained instruction following, spatial and contextual reasoning, thereby enabling comprehensive evaluation of image editing models' precise manipulation capabilities. To construct CompBench, We propose an MLLM-human collaborative framework with tailored task pipelines. Furthermore, we propose an instruction decoupling strategy that disentangles editing intents into four key dimensions: location, appearance, dynamics, and objects, ensuring closer alignment between instructions and complex editing requirements. Extensive evaluations reveal that CompBench exposes fundamental limitations of current image editing models and provides critical insights for the development of next-generation instruction-guided image editing systems. The dataset, code, and models are available in https://comp-bench.github.io/.
- Abstract(参考訳): 現実のアプリケーションは複雑なシーン操作をますます要求するが、既存の命令誘導画像編集ベンチマークはタスクの複雑さを過度に単純化し、包括的できめ細かな命令を欠いている。
このギャップを埋めるために、複雑な命令誘導画像編集用に特別に設計された大規模ベンチマークを導入する。
CompBenchは、微粒な指示、空間的推論、文脈的推論を取り入れ、画像編集モデルの正確な操作能力の包括的な評価を可能にする、困難な編集シナリオを特徴としている。
CompBenchを構築するために,タスクパイプラインを調整したMLLMと人による協調的なフレームワークを提案する。
さらに、編集意図を4つの重要な次元(位置、外観、ダイナミクス、オブジェクト)に分割し、命令と複雑な編集要件の密接な整合性を確保するための命令分離戦略を提案する。
CompBenchは、現在の画像編集モデルの基本的限界を明らかにし、次世代の指導誘導画像編集システムの開発に重要な洞察を提供する。
データセット、コード、モデルはhttps://comp-bench.github.io/.com/で公開されている。
関連論文リスト
- SmartFreeEdit: Mask-Free Spatial-Aware Image Editing with Complex Instruction Understanding [45.79481252237092]
SmartFreeEditは、マルチモーダルな大規模言語モデル(MLLM)とハイパーグラフ強化のインペイントアーキテクチャを統合するエンドツーエンドフレームワークである。
SmartFreeEditの主なイノベーションは、リージョン認識トークンとマスク埋め込みパラダイムである。
Reason-Editベンチマークの実験では、SmartFreeEditが現在の最先端メソッドを上回ることが示されている。
論文 参考訳(メタデータ) (2025-04-17T07:17:49Z) - FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction [31.95664918050255]
FreeEditは参照ベースの画像編集を実現するための新しいアプローチである。
ユーザフレンドリーな言語命令に基づいて参照画像から視覚概念を正確に再現することができる。
論文 参考訳(メタデータ) (2024-09-26T17:18:39Z) - InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Guiding Instruction-based Image Editing via Multimodal Large Language
Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。
MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。
MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文 参考訳(メタデータ) (2023-09-29T10:01:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。