論文の概要: WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing
- arxiv url: http://arxiv.org/abs/2512.00387v1
- Date: Sat, 29 Nov 2025 08:32:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.21367
- Title: WiseEdit: Benchmarking Cognition- and Creativity-Informed Image Editing
- Title(参考訳): WiseEdit: ベンチマークによる認知とクリエイティビティによる画像編集
- Authors: Kaihang Pan, Weile Chen, Haiyi Qiu, Qifan Yu, Wendong Bu, Zehan Wang, Yun Zhu, Juncheng Li, Siliang Tang,
- Abstract要約: WiseEditは、認知と創造性をインフォームドした画像編集の総合的な評価のための知識集約型ベンチマークである。
WiseEditは、画像編集を3つのカスケードステップに分解する。
最終的に、WiseEditは1,220のテストケースで構成されており、SoTAイメージ編集モデルの限界を客観的に明らかにしている。
- 参考スコア(独自算出の注目度): 39.431195153927334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent image editing models boast next-level intelligent capabilities, facilitating cognition- and creativity-informed image editing. Yet, existing benchmarks provide too narrow a scope for evaluation, failing to holistically assess these advanced abilities. To address this, we introduce WiseEdit, a knowledge-intensive benchmark for comprehensive evaluation of cognition- and creativity-informed image editing, featuring deep task depth and broad knowledge breadth. Drawing an analogy to human cognitive creation, WiseEdit decomposes image editing into three cascaded steps, i.e., Awareness, Interpretation, and Imagination, each corresponding to a task that poses a challenge for models to complete at the specific step. It also encompasses complex tasks, where none of the three steps can be finished easily. Furthermore, WiseEdit incorporates three fundamental types of knowledge: Declarative, Procedural, and Metacognitive knowledge. Ultimately, WiseEdit comprises 1,220 test cases, objectively revealing the limitations of SoTA image editing models in knowledge-based cognitive reasoning and creative composition capabilities. The benchmark, evaluation code, and the generated images of each model will be made publicly available soon. Project Page: https://qnancy.github.io/wiseedit_project_page/.
- Abstract(参考訳): 最近の画像編集モデルは、認知的および創造的インフォームドな画像編集を容易にする、次世代のインテリジェントな能力を誇っている。
しかし、既存のベンチマークは評価の範囲を狭くしすぎており、これらの高度な能力の全体的評価に失敗している。
これを解決するために,深いタスク深度と広い知識広さを特徴とする認知情報と創造性インフォームド画像の総合的な評価のための知識集約型ベンチマークであるWiseEditを紹介した。
人間の認知的創造に類似して、WiseEditは、画像編集を3つのカスケードされたステップ、すなわち、認識、解釈、Imaginationに分解する。
3つのステップのどれも簡単に完了できない複雑なタスクも含んでいる。
さらに、WiseEditは3つの基本的な知識、宣言的知識、手続き的知識、メタ認知的知識を取り入れている。
最終的に、WiseEditは1,220のテストケースで構成されており、知識に基づく認知的推論と創造的構成能力におけるSoTA画像編集モデルの限界を客観的に明らかにしている。
ベンチマーク、評価コード、各モデルの生成された画像は、まもなく公開される予定である。
プロジェクトページ: https://qnancy.github.io/wiseedit_project_page/。
関連論文リスト
- SpotEdit: Evaluating Visually-Guided Image Editing Methods [3.5066378196008636]
SpotEditは、視覚的に誘導された画像編集方法を評価するために設計された包括的なベンチマークである。
我々のベンチマークには幻覚の専用コンポーネントが含まれており、GPT-4oのような主要なモデルが視覚的キューの存在を幻覚し、誤って編集タスクを実行するかを強調している。
論文 参考訳(メタデータ) (2025-08-25T16:08:57Z) - KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models [88.58758610679762]
KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark) は、認知的なレンズを通してモデルを評価するための診断ベンチマークである。
本研究は,3つの基礎知識タイプ(実例,概念,手続き)にまたがる編集タスクを分類する。
詳細な評価を支援するため,人間の研究により知識ヒントによって強化され,校正された新しい知識プラウザビリティ指標を組み込んだプロトコルを提案する。
論文 参考訳(メタデータ) (2025-05-22T14:08:59Z) - CompBench: Benchmarking Complex Instruction-guided Image Editing [63.347846732450364]
CompBenchは複雑な命令誘導画像編集のための大規模なベンチマークである。
本稿では,タスクパイプラインを調整したMLLM-ヒューマン協調フレームワークを提案する。
編集意図を4つの重要な次元に分割する命令分離戦略を提案する。
論文 参考訳(メタデータ) (2025-05-18T02:30:52Z) - Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。
AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。
我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文 参考訳(メタデータ) (2024-07-03T19:36:33Z) - Responsible Visual Editing [53.45295657891099]
画像内の特定の概念を修正し、変更を最小化しながら、より責任を負うようにする。
有害な画像が研究に与える影響を緩和するため、人間の代わりにテディベアを用いて有害な情報を表現した透明でパブリックなデータセットAltBearを作成しました。
AltBearデータセットは、実画像に見られる有害な内容とよく一致し、一貫した実験的な評価を提供する。
論文 参考訳(メタデータ) (2024-04-08T14:56:26Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。