論文の概要: CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions
- arxiv url: http://arxiv.org/abs/2603.26174v1
- Date: Fri, 27 Mar 2026 08:42:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.404878
- Title: CREval: An Automated Interpretable Evaluation for Creative Image Manipulation under Complex Instructions
- Title(参考訳): CREval:複雑な指導下での創造的イメージ操作のための自動解釈可能な評価
- Authors: Chonghuinan Wang, Zihan Chen, Yuxiang Wei, Tianyi Jiang, Xiaohe Wu, Fan Li, Wangmeng Zuo, Hongxun Yao,
- Abstract要約: 本稿では,完全自動質問応答(QA)に基づく評価パイプラインであるCREvalを提案する。
また、複雑な命令下での創造的なイメージ操作に特化した包括的なベンチマークであるCREval-Benchを紹介する。
その結果、クローズドソースモデルは、一般的に、複雑で創造的なタスクにおいて、オープンソースモデルよりも優れていますが、すべてのモデルは、そのような編集を効果的に完了させることに苦慮しています。
- 参考スコア(独自算出の注目度): 59.85102794322254
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-based multimodal image manipulation has recently made rapid progress. However, existing evaluation methods lack a systematic and human-aligned framework for assessing model performance on complex and creative editing tasks. To address this gap, we propose CREval, a fully automated question-answer (QA)-based evaluation pipeline that overcomes the incompleteness and poor interpretability of opaque Multimodal Large Language Models (MLLMs) scoring. Simultaneously, we introduce CREval-Bench, a comprehensive benchmark specifically designed for creative image manipulation under complex instructions. CREval-Bench covers three categories and nine creative dimensions, comprising over 800 editing samples and 13K evaluation queries. Leveraging this pipeline and benchmark, we systematically evaluate a diverse set of state-of-the-art open and closed-source models. The results reveal that while closed-source models generally outperform open-source ones on complex and creative tasks, all models still struggle to complete such edits effectively. In addition, user studies demonstrate strong consistency between CREval's automated metrics and human judgments. Therefore, CREval provides a reliable foundation for evaluating image editing models on complex and creative image manipulation tasks, and highlights key challenges and opportunities for future research.
- Abstract(参考訳): 命令に基づくマルチモーダル画像操作は,最近急速に進歩している。
しかし,既存の評価手法では,複雑かつ創造的な編集作業において,モデル性能を評価するための体系的かつ人間的な枠組みが欠如している。
このギャップに対処するため,完全自動質問応答(QA)に基づく評価パイプラインであるCREvalを提案する。
同時に、複雑な命令下での創造的なイメージ操作に特化した包括的なベンチマークであるCREval-Benchを紹介する。
CREval-Benchは3つのカテゴリと9つの創造的次元をカバーし、800以上の編集サンプルと13K評価クエリで構成されている。
このパイプラインとベンチマークを活用して、さまざまな最先端のオープンソースモデルとクローズドソースモデルを体系的に評価する。
その結果、クローズドソースモデルは、一般的に複雑で創造的なタスクにおいてオープンソースモデルよりも優れていますが、すべてのモデルは、そのような編集を効果的に完了させることに苦慮しています。
さらに、ユーザスタディでは、CREvalの自動メトリクスと人間の判断との間に強い一貫性が示されている。
そのため、CREvalは、複雑で創造的な画像操作タスクにおける画像編集モデルを評価するための信頼性の高い基盤を提供し、将来の研究における重要な課題と機会を強調している。
関連論文リスト
- I2I-Bench: A Comprehensive Benchmark Suite for Image-to-Image Editing Models [78.62380562116135]
既存の画像編集ベンチマークは、タスクの範囲が限られており、評価範囲が不十分であり、手動のアノテーションに大きく依存している。
画像間編集モデルの総合的なベンチマークである textbfI2I-Bench を提案する。
I2I-Benchを用いて、多数の主流画像編集モデルをベンチマークし、様々な次元にわたる編集モデル間のギャップとトレードオフを調査した。
論文 参考訳(メタデータ) (2025-12-04T10:44:07Z) - UniREditBench: A Unified Reasoning-based Image Editing Benchmark [52.54256348710893]
この研究は、推論に基づく画像編集評価のための統一ベンチマークUniREditBenchを提案する。
精巧にキュレートされた2,700個のサンプルからなり、8つの一次次元と18のサブ次元にわたる実世界シナリオとゲーム世界のシナリオをカバーしている。
このデータセットにBagelを微調整し、UniREdit-Bagelを開発した。
論文 参考訳(メタデータ) (2025-11-03T07:24:57Z) - ModelingAgent: Bridging LLMs and Mathematical Modeling for Real-World Challenges [72.19809898215857]
ModelingBenchは、様々な領域にわたる数学モデリングの競争から、現実に着想を得たオープンエンドの問題を特徴付ける新しいベンチマークである。
これらのタスクには、自然言語を形式的な数学的定式化に翻訳し、適切なツールを適用し、構造化された防御可能なレポートを生成する必要がある。
ツール使用をコーディネートするマルチエージェントフレームワークである ModelingAgent も紹介します。
論文 参考訳(メタデータ) (2025-05-21T03:33:23Z) - Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。
ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。
実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-18T17:51:34Z) - PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM [17.89238060470998]
拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。
我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
論文 参考訳(メタデータ) (2024-10-08T06:05:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。