論文の概要: GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2408.11817v2
- Date: Thu, 29 Aug 2024 17:47:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 18:25:25.207223
- Title: GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models
- Title(参考訳): GRAB: 大規模マルチモーダルモデルのGRaph解析ベンチマーク
- Authors: Jonathan Roberts, Kai Han, Samuel Albanie,
- Abstract要約: グラフ解析のベンチマークであるGRABを現在および将来のLMMに適用する。
私たちのベンチマークは完全に総合的で、高品質でノイズフリーな質問を確実にします。
GRAB上で20のLMMを評価し、21.7%のスコアで最高のパフォーマンスのモデルで、挑戦的なベンチマークであることが判明した。
- 参考スコア(独自算出の注目度): 36.83397306207386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models (LMMs) have exhibited proficiencies across many visual tasks. Although numerous well-known benchmarks exist to evaluate model performance, they increasingly have insufficient headroom. As such, there is a pressing need for a new generation of benchmarks challenging enough for the next generation of LMMs. One area that LMMs show potential is graph analysis, specifically, the tasks an analyst might typically perform when interpreting figures such as estimating the mean, intercepts or correlations of functions and data series. In this work, we introduce GRAB, a graph analysis benchmark, fit for current and future frontier LMMs. Our benchmark is entirely synthetic, ensuring high-quality, noise-free questions. GRAB is comprised of 2170 questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on GRAB, finding it to be a challenging benchmark, with the highest performing model attaining a score of just 21.7%. Finally, we conduct various ablations to investigate where the models succeed and struggle. We release GRAB to encourage progress in this important, growing domain.
- Abstract(参考訳): 大規模マルチモーダルモデル (LMM) は多くの視覚的タスクに習熟している。
モデル性能を評価するためによく知られたベンチマークが多数存在するが、ヘッドルームはますます不十分である。
そのため、次世代のLMMに十分挑戦する新しい世代のベンチマークが必要である。
LMMがポテンシャルを示す分野の1つはグラフ解析であり、具体的には、平均やインターセプト、関数やデータ系列の相関を推定するといった数字を解釈する際に、アナリストが一般的に行うべきタスクである。
本稿では,現在および将来のフロンティアLMMに適合するグラフ解析ベンチマークGRABを紹介する。
私たちのベンチマークは完全に総合的で、高品質でノイズフリーな質問を確実にします。
GRABは2170の質問で構成され、4つのタスクと23のグラフプロパティをカバーしている。
GRAB上で20のLMMを評価し、21.7%のスコアで最高のパフォーマンスのモデルで、挑戦的なベンチマークであることが判明した。
最後に、モデルがどのように成功し、苦闘するかを調べるために、様々な試みを行う。
この重要で成長しているドメインの進展を促進するため、GRABをリリースします。
関連論文リスト
- MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - GraphFM: A Comprehensive Benchmark for Graph Foundation Model [33.157367455390144]
ファンデーション・モデル(FM)は、人工知能システムの開発のための一般的なクラスである。
FMの基礎として自己教師型学習の研究が盛んに行われたが、いくつかの顕著な問題が続いている。
下流タスクにおける一般化能力の程度は未だ不明である。
これらのモデルが大規模なデータセットにどの程度効果的にスケールできるかは不明だ。
論文 参考訳(メタデータ) (2024-06-12T15:10:44Z) - A-Bench: Are LMMs Masters at Evaluating AI-generated Images? [78.3699767628502]
A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。
最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
論文 参考訳(メタデータ) (2024-06-05T08:55:02Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。