論文の概要: KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models
- arxiv url: http://arxiv.org/abs/2505.16707v1
- Date: Thu, 22 May 2025 14:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.34895
- Title: KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models
- Title(参考訳): KRIS-Bench: 次世代のインテリジェントイメージ編集モデルのベンチマーク
- Authors: Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang,
- Abstract要約: KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark) は、認知的なレンズを通してモデルを評価するための診断ベンチマークである。
本研究は,3つの基礎知識タイプ(実例,概念,手続き)にまたがる編集タスクを分類する。
詳細な評価を支援するため,人間の研究により知識ヒントによって強化され,校正された新しい知識プラウザビリティ指標を組み込んだプロトコルを提案する。
- 参考スコア(独自算出の注目度): 88.58758610679762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in multi-modal generative models have enabled significant progress in instruction-based image editing. However, while these models produce visually plausible outputs, their capacity for knowledge-based reasoning editing tasks remains under-explored. In this paper, we introduce KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark), a diagnostic benchmark designed to assess models through a cognitively informed lens. Drawing from educational theory, KRIS-Bench categorizes editing tasks across three foundational knowledge types: Factual, Conceptual, and Procedural. Based on this taxonomy, we design 22 representative tasks spanning 7 reasoning dimensions and release 1,267 high-quality annotated editing instances. To support fine-grained evaluation, we propose a comprehensive protocol that incorporates a novel Knowledge Plausibility metric, enhanced by knowledge hints and calibrated through human studies. Empirical results on 10 state-of-the-art models reveal significant gaps in reasoning performance, highlighting the need for knowledge-centric benchmarks to advance the development of intelligent image editing systems.
- Abstract(参考訳): マルチモーダル生成モデルの最近の進歩は、命令ベースの画像編集において大きな進歩をもたらした。
しかしながら、これらのモデルは視覚的にもっとも有効な出力を生成するが、知識に基づく推論編集タスクの能力は未探索のままである。
本稿では,KRIS-Bench (Knowledge-based Reasoning in Image-editing Systems Benchmark)を紹介する。
教育理論から引用して、KRIS-Benchは3つの基本的な知識タイプ(実例、概念、手続き)にまたがる編集タスクを分類している。
この分類に基づいて、7つの推論次元にまたがる22の代表的なタスクを設計し、1,267の高品質な注釈付き編集インスタンスをリリースする。
詳細な評価を支援するため,人間の研究により知識ヒントによって強化され,校正された新しい知識プラウザビリティ指標を組み込んだ包括的プロトコルを提案する。
10の最先端モデルに対する実証的な結果は、推論性能に重大なギャップを生じさせ、インテリジェントな画像編集システムの開発を進めるための知識中心のベンチマークの必要性を浮き彫りにした。
関連論文リスト
- PixLens: A Novel Framework for Disentangled Evaluation in Diffusion-Based Image Editing with Object Detection + SAM [17.89238060470998]
拡散に基づく画像編集モデルを評価することは、生成AIの分野において重要な課題である。
我々のベンチマークであるPixLensは、編集品質と遅延表現の絡み合いを総合的に評価する。
論文 参考訳(メタデータ) (2024-10-08T06:05:15Z) - I2EBench: A Comprehensive Benchmark for Instruction-based Image Editing [67.05794909694649]
I2EBenchはIIEモデルによって生成された編集画像の品質を評価するための総合的なベンチマークである。
I2EBenchは2000以上の編集用イメージと4,000以上の対応するオリジナルおよび多様な命令で構成されている。
我々はI2EBenchをオープンソースとして公開し、すべての命令、入力画像、人間のアノテーション、すべての評価方法からの編集画像、新しいIIEモデルからの結果を評価するためのシンプルなスクリプトを公開します。
論文 参考訳(メタデータ) (2024-08-26T11:08:44Z) - Learning Action and Reasoning-Centric Image Editing from Videos and Simulations [45.637947364341436]
AURORAデータセット(AURORA data)は、ビデオやシミュレーションエンジンから人間に注釈を付け、キュレートされた高品質なトレーニングデータの集合である。
AURORA-finetuned model on a new expert-curated benchmark across 8 various editing task。
我々のモデルは従来の編集モデルよりもはるかに優れており、人間のレーティングによって判断される。
論文 参考訳(メタデータ) (2024-07-03T19:36:33Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark [53.091690659399234]
大規模言語モデル(LLM)の知識編集は注目されている。
3つのメトリクス(信頼性、局所性、一般性)からなる既存のLVLM編集ベンチマークは、合成された評価画像の品質が不足している。
我々は、新しいLarge $textbfV$ision-$textbfL$anguage Modelを構築するために、より信頼性の高いデータ収集手法を使用します。
論文 参考訳(メタデータ) (2024-03-12T06:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。