Fugu-MT 論文翻訳(概要): CompBench: Benchmarking Complex Instruction-guided Image Editing

論文の概要: CompBench: Benchmarking Complex Instruction-guided Image Editing

arxiv url: http://arxiv.org/abs/2505.12200v2
Date: Tue, 20 May 2025 11:17:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-21 12:33:37.421479
Title: CompBench: Benchmarking Complex Instruction-guided Image Editing
Title（参考訳）: CompBench: 複雑な命令誘導の画像編集のベンチマーク
Authors: Bohan Jia, Wenxuan Huang, Yuntian Tang, Junbo Qiao, Jincheng Liao, Shaosheng Cao, Fei Zhao, Zhaopeng Feng, Zhouhong Gu, Zhenfei Yin, Lei Bai, Wanli Ouyang, Lin Chen, Fei Zhao, Zihan Wang, Yuan Xie, Shaohui Lin,
Abstract要約: CompBenchは複雑な命令誘導画像編集のための大規模なベンチマークである。本稿では,タスクパイプラインを調整したMLLM-ヒューマン協調フレームワークを提案する。編集意図を4つの重要な次元に分割する命令分離戦略を提案する。
参考スコア（独自算出の注目度）: 63.347846732450364
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While real-world applications increasingly demand intricate scene manipulation, existing instruction-guided image editing benchmarks often oversimplify task complexity and lack comprehensive, fine-grained instructions. To bridge this gap, we introduce, a large-scale benchmark specifically designed for complex instruction-guided image editing. CompBench features challenging editing scenarios that incorporate fine-grained instruction following, spatial and contextual reasoning, thereby enabling comprehensive evaluation of image editing models' precise manipulation capabilities. To construct CompBench, We propose an MLLM-human collaborative framework with tailored task pipelines. Furthermore, we propose an instruction decoupling strategy that disentangles editing intents into four key dimensions: location, appearance, dynamics, and objects, ensuring closer alignment between instructions and complex editing requirements. Extensive evaluations reveal that CompBench exposes fundamental limitations of current image editing models and provides critical insights for the development of next-generation instruction-guided image editing systems. The dataset, code, and models are available in https://comp-bench.github.io/.
Abstract（参考訳）: 現実のアプリケーションは複雑なシーン操作をますます要求するが、既存の命令誘導画像編集ベンチマークはタスクの複雑さを過度に単純化し、包括的できめ細かな命令を欠いている。このギャップを埋めるために、複雑な命令誘導画像編集用に特別に設計された大規模ベンチマークを導入する。 CompBenchは、微粒な指示、空間的推論、文脈的推論を取り入れ、画像編集モデルの正確な操作能力の包括的な評価を可能にする、困難な編集シナリオを特徴としている。 CompBenchを構築するために,タスクパイプラインを調整したMLLMと人による協調的なフレームワークを提案する。さらに、編集意図を4つの重要な次元(位置、外観、ダイナミクス、オブジェクト)に分割し、命令と複雑な編集要件の密接な整合性を確保するための命令分離戦略を提案する。 CompBenchは、現在の画像編集モデルの基本的限界を明らかにし、次世代の指導誘導画像編集システムの開発に重要な洞察を提供する。データセット、コード、モデルはhttps://comp-bench.github.io/.com/で公開されている。

関連論文リスト

ComplexBench-Edit: Benchmarking Complex Instruction-Driven Image Editing via Compositional Dependencies [13.525744033075785]
実世界のシナリオは複雑なマルチステップ命令、特に操作が相互依存しているチェーンの命令を含むことが多い。現在のモデルではこれらの複雑なディレクティブに苦労しており、既存のベンチマークではそのような機能の評価が不十分である。複雑・マルチインストラクション・チェーンに依存した画像編集タスクにおいて,モデル性能を体系的に評価する新しいベンチマークであるcomplexBench-Editを導入する。
論文参考訳（メタデータ） (2025-06-15T12:22:55Z)
Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。 IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文参考訳（メタデータ） (2025-06-04T16:57:24Z)
Beyond Editing Pairs: Fine-Grained Instructional Image Editing via Multi-Scale Learnable Regions [20.617718631292696]
我々は、広く利用可能な膨大なテキストイメージ対を利用する命令駆動画像編集のための新しいパラダイムを開発する。本手法では,編集プロセスのローカライズとガイドを行うために,マルチスケールの学習可能な領域を導入する。画像とそのテキスト記述のアライメントを監督・学習として扱い,タスク固有の編集領域を生成することにより,高忠実で高精度かつ命令一貫性のある画像編集を実現する。
論文参考訳（メタデータ） (2025-05-25T22:40:59Z)
SmartFreeEdit: Mask-Free Spatial-Aware Image Editing with Complex Instruction Understanding [45.79481252237092]
SmartFreeEditは、マルチモーダルな大規模言語モデル(MLLM)とハイパーグラフ強化のインペイントアーキテクチャを統合するエンドツーエンドフレームワークである。 SmartFreeEditの主なイノベーションは、リージョン認識トークンとマスク埋め込みパラダイムである。 Reason-Editベンチマークの実験では、SmartFreeEditが現在の最先端メソッドを上回ることが示されている。
論文参考訳（メタデータ） (2025-04-17T07:17:49Z)
FreeEdit: Mask-free Reference-based Image Editing with Multi-modal Instruction [31.95664918050255]
FreeEditは参照ベースの画像編集を実現するための新しいアプローチである。ユーザフレンドリーな言語命令に基づいて参照画像から視覚概念を正確に再現することができる。
論文参考訳（メタデータ） (2024-09-26T17:18:39Z)
InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文参考訳（メタデータ） (2024-03-27T15:03:38Z)
SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文参考訳（メタデータ） (2023-12-11T17:54:11Z)
Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。 Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文参考訳（メタデータ） (2023-11-16T18:55:58Z)
Guiding Instruction-based Image Editing via Multimodal Large Language Models [102.82211398699644]
マルチモーダル大言語モデル (MLLM) は, クロスモーダル理解と視覚応答生成において有望な能力を示す。 MLLMはどのようにして編集手順を容易にし、MGIE(MLLM-Guided Image Editing)を提示するかを検討する。 MGIEは表現的な指示を導き、明確なガイダンスを提供する。
論文参考訳（メタデータ） (2023-09-29T10:01:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。