論文の概要: ComplexBench-Edit: Benchmarking Complex Instruction-Driven Image Editing via Compositional Dependencies
- arxiv url: http://arxiv.org/abs/2506.12830v1
- Date: Sun, 15 Jun 2025 12:22:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.987407
- Title: ComplexBench-Edit: Benchmarking Complex Instruction-Driven Image Editing via Compositional Dependencies
- Title(参考訳): ComplexBench-Edit: コンポジション依存による複雑なインストラクション駆動の画像編集のベンチマーク
- Authors: Chenglin Wang, Yucheng Zhou, Qianning Wang, Zhe Wang, Kai Zhang,
- Abstract要約: 実世界のシナリオは複雑なマルチステップ命令、特に操作が相互依存しているチェーンの命令を含むことが多い。
現在のモデルではこれらの複雑なディレクティブに苦労しており、既存のベンチマークではそのような機能の評価が不十分である。
複雑・マルチインストラクション・チェーンに依存した画像編集タスクにおいて,モデル性能を体系的に評価する新しいベンチマークであるcomplexBench-Editを導入する。
- 参考スコア(独自算出の注目度): 13.525744033075785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven image editing has achieved remarkable success in following single instructions. However, real-world scenarios often involve complex, multi-step instructions, particularly ``chain'' instructions where operations are interdependent. Current models struggle with these intricate directives, and existing benchmarks inadequately evaluate such capabilities. Specifically, they often overlook multi-instruction and chain-instruction complexities, and common consistency metrics are flawed. To address this, we introduce ComplexBench-Edit, a novel benchmark designed to systematically assess model performance on complex, multi-instruction, and chain-dependent image editing tasks. ComplexBench-Edit also features a new vision consistency evaluation method that accurately assesses non-modified regions by excluding edited areas. Furthermore, we propose a simple yet powerful Chain-of-Thought (CoT)-based approach that significantly enhances the ability of existing models to follow complex instructions. Our extensive experiments demonstrate ComplexBench-Edit's efficacy in differentiating model capabilities and highlight the superior performance of our CoT-based method in handling complex edits. The data and code are released at https://github.com/llllly26/ComplexBench-Edit.
- Abstract(参考訳): テキスト駆動画像編集は、単一命令に従うことで顕著な成功を収めた。
しかし、実世界のシナリオは複雑なマルチステップ命令、特に操作が相互依存している ''chain'' 命令を含むことが多い。
現在のモデルではこれらの複雑なディレクティブに苦労しており、既存のベンチマークではそのような機能の評価が不十分である。
特に、彼らはしばしばマルチインストラクションとチェーンインストラクションの複雑さを見落とし、共通の一貫性の指標に欠陥がある。
これを解決するために、複雑・多命令・連鎖依存の画像編集タスクにおいて、モデル性能を体系的に評価する新しいベンチマークであるcomplexBench-Editを導入する。
ComplexBench-Editはまた、編集された領域を除外して修正されていない領域を正確に評価する新しい視覚的整合性評価手法も備えている。
さらに,既存のモデルが複雑な命令に従う能力を大幅に向上させる,シンプルで強力なCoT(Chain-of-Thought)ベースのアプローチを提案する。
モデル機能の差別化における ComplexBench-Edit の有効性を実証し,複雑な編集処理における CoT ベースの手法の優れた性能を強調した。
データとコードはhttps://github.com/llllly26/ComplexBench-Editで公開されている。
関連論文リスト
- Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - CompBench: Benchmarking Complex Instruction-guided Image Editing [63.347846732450364]
CompBenchは複雑な命令誘導画像編集のための大規模なベンチマークである。
本稿では,タスクパイプラインを調整したMLLM-ヒューマン協調フレームワークを提案する。
編集意図を4つの重要な次元に分割する命令分離戦略を提案する。
論文 参考訳(メタデータ) (2025-05-18T02:30:52Z) - $\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark [36.58090024531738]
我々は、命令ベースの画像編集モデルを評価するために設計された包括的なベンチマークである$ttexttComplex-Edit$を紹介した。
我々は GPT-4o を利用して,様々な編集命令を大規模に収集する。
本稿では,VLMに基づく自動評価パイプラインとともに,編集性能のさまざまな側面を評価するための指標について紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:51:59Z) - EpiCoder: Encompassing Diversity and Complexity in Code Generation [49.170195362149386]
既存のコード生成方法はシードデータとしてコードスニペットを使用する。
階層的なコード機能を中心に展開する,新しい機能ツリーベースの合成フレームワークを提案する。
我々のフレームワークは、生成されたコードの複雑さを正確に制御し、関数レベルの操作からマルチファイルのシナリオまで幅広い機能を実現する。
論文 参考訳(メタデータ) (2025-01-08T18:58:15Z) - Benchmarking Complex Instruction-Following with Multiple Constraints Composition [72.82640456309821]
大規模言語モデル(LLM)の複雑な命令追従能力の評価方法が重要な研究課題となっている。
既存のベンチマークは主に、異なる制約の構成を無視しながら、人間の指示で異なるタイプの制約をモデル化することに焦点を当てている。
複数の制約からなる複雑な命令に従うLLMの能力を総合的に評価するためのベンチマークである ComplexBench を提案する。
論文 参考訳(メタデータ) (2024-07-04T14:50:45Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。