論文の概要: STORM: Benchmarking Visual Rating of MLLMs with a Comprehensive Ordinal Regression Dataset
- arxiv url: http://arxiv.org/abs/2506.01738v1
- Date: Mon, 02 Jun 2025 14:48:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.499836
- Title: STORM: Benchmarking Visual Rating of MLLMs with a Comprehensive Ordinal Regression Dataset
- Title(参考訳): STORM: 総合的な順序回帰データセットによるMLLMのビジュアルレーティングのベンチマーク
- Authors: Jinhong Wang, Shuo Tong, Jian liu, Dongqi Tang, Jintai Chen, Haochao Ying, Hongxia Xu, Danny Chen, Jian Wu,
- Abstract要約: STORMは、ユニバーサルビジュアルレーティングのためのMLLMの信頼に値する順序回帰能力を刺激するためのデータ収集とベンチマークである。
本稿では,ラベル候補を動的に考慮し,解釈可能な思考を提供する粗大な処理パイプラインを提案する。
本ベンチマークは,MLLMのオールインワンおよびゼロショット性能を,評価ラベルの基本的な共通順序関係の理解を必要とするシナリオで評価することを目的とする。
- 参考スコア(独自算出の注目度): 13.574832958298911
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Visual rating is an essential capability of artificial intelligence (AI) for multi-dimensional quantification of visual content, primarily applied in ordinal regression (OR) tasks such as image quality assessment, facial age estimation, and medical image grading. However, current multi-modal large language models (MLLMs) under-perform in such visual rating ability while also suffering the lack of relevant datasets and benchmarks. In this work, we collect and present STORM, a data collection and benchmark for Stimulating Trustworthy Ordinal Regression Ability of MLLMs for universal visual rating. STORM encompasses 14 ordinal regression datasets across five common visual rating domains, comprising 655K image-level pairs and the corresponding carefully curated VQAs. Importantly, we also propose a coarse-to-fine processing pipeline that dynamically considers label candidates and provides interpretable thoughts, providing MLLMs with a general and trustworthy ordinal thinking paradigm. This benchmark aims to evaluate the all-in-one and zero-shot performance of MLLMs in scenarios requiring understanding of the essential common ordinal relationships of rating labels. Extensive experiments demonstrate the effectiveness of our framework and shed light on better fine-tuning strategies. The STORM dataset, benchmark, and pre-trained models are available on the following webpage to support further research in this area. Datasets and codes are released on the project page: https://storm-bench.github.io/.
- Abstract(参考訳): 視覚評価は、視覚内容の多次元定量化に人工知能(AI)が欠かせない能力であり、主に画像品質評価、顔の年齢推定、医用画像のグレーディングなどの順序回帰(OR)タスクに適用される。
しかし、現在のマルチモーダル大言語モデル(MLLM)は、関連するデータセットやベンチマークの欠如に悩まされながら、そのような視覚的評価能力に劣る。
本研究は,MLLMの信頼に値する順序回帰能力を評価するためのデータ収集およびベンチマークであるSTORMを収集し,提示する。
STORMは、一般的な5つの視覚的評価領域にまたがる14の順序回帰データセットを含み、655Kイメージレベルのペアと、それに対応する慎重にキュレートされたVQAで構成されている。
また、ラベル候補を動的に考慮し、解釈可能な思考を提供する粗大な処理パイプラインを提案し、MLLMに汎用的で信頼性の高い順序的思考パラダイムを提供する。
本ベンチマークは,MLLMのオールインワンおよびゼロショット性能を,評価ラベルの基本的な共通順序関係の理解を必要とするシナリオで評価することを目的とする。
大規模な実験は、我々のフレームワークの有効性を示し、より優れた微調整戦略に光を当てた。
STORMデータセット、ベンチマーク、事前トレーニングされたモデルは、この分野のさらなる研究をサポートするために以下のWebページで利用可能である。
データセットとコードはプロジェクトページ(https://storm-bench.github.io/)で公開されている。
関連論文リスト
- Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations [7.32619928577074]
本稿では,LLM生成データビジュアライゼーションの評価を自動化するために,VQA(Visual Question Answering)モデルを活用する新しいフレームワークを提案する。
以上の結果から,LLM 生成チャートは VQA の性能測定値に基づいて,元の非LLM 生成チャートの精度に合わないことが示唆された。
論文 参考訳(メタデータ) (2024-09-27T14:02:48Z) - Assessing Brittleness of Image-Text Retrieval Benchmarks from Vision-Language Models Perspective [44.045767657945895]
画像テキスト検索(ITR)評価パイプラインの脆性について,概念的粒度に着目して検討した。
ゼロショット条件下では,標準データセットと細粒度データセットの両方に対して,最先端のビジョンランゲージモデルを4種類評価する。
その結果、摂動は一般的にモデル性能を劣化させるが、粒度の細かいデータセットは標準のデータセットよりもパフォーマンスの低下が小さいことが示された。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。
本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。
以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-06-24T20:29:16Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。