論文の概要: UNICBench: UNIfied Counting Benchmark for MLLM
- arxiv url: http://arxiv.org/abs/2603.00595v1
- Date: Sat, 28 Feb 2026 11:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.282566
- Title: UNICBench: UNIfied Counting Benchmark for MLLM
- Title(参考訳): UNICBench: MLLMの数値ベンチマーク
- Authors: Chenggang Rong, Tao Han, Zhiyuan Zhao, Yaowu Fan, Jia Wan, Song Guo, Yuan Yuan, Junyu Gao,
- Abstract要約: カウントはマルチモーダル大言語モデル(MLLM)のコア機能である
統一型マルチモーダル・マルチレベルカウントベンチマークおよび評価ツールキットであるUNICBenchを提案する。
コーパスは、5,300イメージ(5,508 QA)、872ドキュメント(5,888 QA)、2,069オーディオクリップ(2,905 QA)からなる。
- 参考スコア(独自算出の注目度): 37.87806498349625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Counting is a core capability for multimodal large language models (MLLMs), yet there is no unified counting dataset to rigorously evaluate this ability across image, text, and audio. We present UNICBench, a unified multimodal, multi level counting benchmark and evaluation toolkit with accurate ground truth, deterministic numeric parsing, and stratified reporting. The corpus comprises 5,300 images (5,508 QA), 872 documents (5,888 QA), and 2,069 audio clips (2,905 QA), annotated with a three level capability taxonomy and difficulty tags. Under a standardized protocol with fixed splits/prompts/seeds and modality specific matching rules, we evaluate 45 state-of-the-art MLLMs across modalities. Results show strong performance on some basic counting tasks but significant gaps on reasoning and the hardest partitions, highlighting long-tail errors and substantial headroom for improving general counting. UNICBench offers a rigorous and comparable basis for measurement and a public toolkit to accelerate progress.
- Abstract(参考訳): カウントはマルチモーダルな大規模言語モデル(MLLM)のコア機能であるが、画像、テキスト、オーディオ間でこの機能を厳格に評価するための統一されたカウントデータセットはない。
UNICBench, 統一型マルチモーダル・マルチレベルカウントベンチマークおよび評価ツールキットについて, 正確な基底事実, 決定論的数値解析, 階層化報告について述べる。
コーパスは、画像5,300枚(5,508 QA)、文書872枚(5,888 QA)、オーディオクリップ2,069枚(2,905 QA)からなり、3段階の分類と難易度タグが付加されている。
固定スプリット/プロンプト/シードとモダリティ固有のマッチングルールを備えた標準化されたプロトコルでは,45の最先端MLLMをモダリティで評価する。
その結果,いくつかの基本的な計数作業では高い性能を示したが,推理や分割の難易度に有意な差がみられ,長い尾の誤差が強調され,一般的な計数を改善するためのかなりの支障がみられた。
UNICBenchは、測定のための厳密で同等の基盤と、進捗を加速するための公開ツールキットを提供する。
関連論文リスト
- Bootstrapping MLLM for Weakly-Supervised Class-Agnostic Object Counting [59.37613121962146]
本稿では,クラスに依存しないオブジェクトカウントのためのMLLM駆動型弱教師付きフレームワークWS-COCを提案する。
WS-COCは、多くの最先端の完全に管理されたメソッドと一致し、また、アノテーションのコストを大幅に削減します。
論文 参考訳(メタデータ) (2026-02-13T09:58:35Z) - M3-Bench: Multi-Modal, Multi-Hop, Multi-Threaded Tool-Using MLLM Agent Benchmark [45.755057449698825]
M3-Benchは、Model Context Protocolの下で使用されるマルチモーダルツールを評価するための最初のベンチマークである。
我々は,各ツールコールをシリアライズし,文エンコーダにシグネチャを埋め込む類似性駆動アライメントを導入し,類似性に富んだハンガリー語マッチングを実行する。
ベンチマークは28のサーバと231のツールにまたがっており、人間による検証でExecutor & Judgeパイプラインを通じてキュレートされた標準化されたトラジェクトリを提供する。
論文 参考訳(メタデータ) (2025-11-21T19:27:02Z) - CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation [26.054199546779696]
CCFQAベンチマークには8言語にまたがる並列音声テキストの事実質問が含まれている。
実験の結果,現在のMLLMはCCFQAベンチマークにおいて大きな課題に直面していることがわかった。
本稿では,LLMの質問応答能力(QA)を多言語音声質問応答(SQA)タスクに効果的に伝達する,数発の翻訳学習戦略を提案する。
論文 参考訳(メタデータ) (2025-08-10T11:09:41Z) - Can Multimodal Large Language Models Understand Spatial Relations? [16.76001474065412]
我々はCOCO 2017をベースとした人間アノテーション付き空間関係推論ベンチマークであるSpatialMQAを紹介する。
その結果、現在の最先端MLLMの精度は48.14%に過ぎず、人間レベルの精度は98.40%をはるかに下回っている。
論文 参考訳(メタデータ) (2025-05-25T07:37:34Z) - Benchmarking and Confidence Evaluation of LALMs For Temporal Reasoning [30.308743810639758]
大規模音声言語モデル(LALM)は、従来の分類や生成タスクとは異なる関連タスクの推論に基づいて評価する必要がある。
オープンソースのLALMをベンチマークし、TREAデータセットのタスクにおいて、それらが人間の能力に一貫して遅れていることを観察する。
分析の結果,精度と不確かさの指標が必ずしも相関しているわけではないことが示唆され,高感度アプリケーションにおけるLALMの全体評価の必要性が示唆された。
論文 参考訳(メタデータ) (2025-05-19T13:46:35Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - CORDIAL: Can Multimodal Large Language Models Effectively Understand Coherence Relationships? [5.246809683975664]
本研究は、類似度に基づくメトリクスを超えて、MLLMを評価するための談話駆動フレームワークを採用することの必要性を強調する。
我々のベンチマークである CORDIAL は、3つの異なる談話領域で様々な粒度でコヒーレンス関係を包含している。
論文 参考訳(メタデータ) (2025-02-16T22:54:44Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。