Fugu-MT 論文翻訳(概要): GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models

論文の概要: GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models

arxiv url: http://arxiv.org/abs/2408.11817v1
Date: Wed, 21 Aug 2024 17:59:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 15:58:35.739781
Title: GRAB: A Challenging GRaph Analysis Benchmark for Large Multimodal Models
Title（参考訳）: GRAB: 大規模マルチモーダルモデルのGRaph解析ベンチマーク
Authors: Jonathan Roberts, Kai Han, Samuel Albanie,
Abstract要約: グラフ解析のベンチマークであるGRABを現在および将来のLMMに適用する。私たちのベンチマークは完全に総合的で、高品質でノイズフリーな質問を確実にします。 GRAB上で20のLMMを評価し、21.7%のスコアで最高のパフォーマンスのモデルで、挑戦的なベンチマークであることが判明した。
参考スコア（独自算出の注目度）: 36.83397306207386
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large multimodal models (LMMs) have exhibited proficiencies across many visual tasks. Although numerous well-known benchmarks exist to evaluate model performance, they increasingly have insufficient headroom. As such, there is a pressing need for a new generation of benchmarks challenging enough for the next generation of LMMs. One area that LMMs show potential is graph analysis, specifically, the tasks an analyst might typically perform when interpreting figures such as estimating the mean, intercepts or correlations of functions and data series. In this work, we introduce GRAB, a graph analysis benchmark, fit for current and future frontier LMMs. Our benchmark is entirely synthetic, ensuring high-quality, noise-free questions. GRAB is comprised of 2170 questions, covering four tasks and 23 graph properties. We evaluate 20 LMMs on GRAB, finding it to be a challenging benchmark, with the highest performing model attaining a score of just 21.7%. Finally, we conduct various ablations to investigate where the models succeed and struggle. We release GRAB to encourage progress in this important, growing domain.
Abstract（参考訳）: 大規模マルチモーダルモデル (LMM) は多くの視覚的タスクに習熟している。モデル性能を評価するためによく知られたベンチマークが多数存在するが、ヘッドルームはますます不十分である。そのため、次世代のLMMに十分挑戦する新しい世代のベンチマークが必要である。 LMMがポテンシャルを示す分野の1つはグラフ解析であり、具体的には、平均やインターセプト、関数やデータ系列の相関を推定するといった数字を解釈する際に、アナリストが一般的に行うべきタスクである。本稿では,現在および将来のフロンティアLMMに適合するグラフ解析ベンチマークGRABを紹介する。私たちのベンチマークは完全に総合的で、高品質でノイズフリーな質問を確実にします。 GRABは2170の質問で構成され、4つのタスクと23のグラフプロパティをカバーしている。 GRAB上で20のLMMを評価し、21.7%のスコアで最高のパフォーマンスのモデルで、挑戦的なベンチマークであることが判明した。最後に、モデルがどのように成功し、苦闘するかを調べるために、様々な試みを行う。この重要で成長しているドメインの進展を促進するため、GRABをリリースします。

関連論文リスト

Do Reasoning Models Ask Better Questions? A Formal Information-Theoretic Analysis on Multi-Turn LLM Games [0.0]
大きな言語モデル(LLM)は多くのタスクで優れていますが、ユーザの要求のあいまいさを解決するための重要な能力に苦労しています。本稿では,LLMがイエス/ノー質問を通じてどのように情報を収集するかを定量的に測定する多元対話フレームワークを提案する。実験により, 評価モデルの中で, 明示的な推論能力を持つモデルでは, ターン当たりのIGが向上し, より少ないステップで解に到達することが実証された。
論文参考訳（メタデータ） (2026-01-25T06:38:15Z)
Chart-HQA: A Benchmark for Hypothetical Question Answering in Charts [62.45232157149698]
本稿では,同じ質問に対して仮定を課し,グラフの内容に基づいた反実的推論を行うようモデルに強制する,新しいChart hypothetical Question Answering (HQA)タスクを提案する。さらに,MLLMの効率的なテキスト編集機能と人間の知識を併用して,多種多様な高品質HQAデータを低コストで生成する,人間とAIの対話型データ合成手法であるHAIを導入する。
論文参考訳（メタデータ） (2025-03-06T05:08:40Z)
Exploring Graph Tasks with Pure LLMs: A Comprehensive Benchmark and Investigation [26.19182768810174]
グラフ構造化データは、さまざまな領域でますます普及し、グラフタスクを処理する効果的なモデルに対する需要が高まっている。グラフニューラルネットワーク(GNN)のような従来のグラフ学習モデルは、大きな進歩を遂げているが、グラフデータを扱う能力は、特定のコンテキストにおいて制限されている。近年,グラフタスクの候補として大規模言語モデル (LLM) が登場しているが,ほとんどの研究はパフォーマンスベンチマークに重点を置いている。
論文参考訳（メタデータ） (2025-02-26T03:03:46Z)
VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文参考訳（メタデータ） (2025-02-25T23:36:19Z)
Multi-Dimensional Insights: Benchmarking Real-World Personalization in Large Multimodal Models [10.828419851213528]
人間の生活の一般的な6つのシナリオをカバーする500以上の画像を含む多次元インサイト(Multi-dimensional Insights)ベンチマークを提案する。この設計により、異なる年齢集団の好みやニーズを満たすLMMの能力を詳細に評価することができる。今後、MDI-BenchmarkがLMMにおける現実のパーソナライゼーションを整合させる新たな経路を開拓することを期待している。
論文参考訳（メタデータ） (2024-12-17T07:06:10Z)
HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks [25.959032350818795]
人間のアノテーションによるコーディングタスクのベンチマークであるHumanEval-Vを提案する。各タスクは、関数シグネチャとテストケースを組み合わせた、慎重に構築されたダイアグラムを備えている。トップパフォーマンスモデルでさえ、控えめな成功率を実現しています。
論文参考訳（メタデータ） (2024-10-16T09:04:57Z)
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。 MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文参考訳（メタデータ） (2024-10-14T04:15:00Z)
How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文参考訳（メタデータ） (2024-10-04T04:48:33Z)
Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [70.03602551880526]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文参考訳（メタデータ） (2024-09-29T11:38:45Z)
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文参考訳（メタデータ） (2024-06-26T17:50:11Z)
GraphFM: A Comprehensive Benchmark for Graph Foundation Model [33.157367455390144]
ファンデーション・モデル(FM)は、人工知能システムの開発のための一般的なクラスである。 FMの基礎として自己教師型学習の研究が盛んに行われたが、いくつかの顕著な問題が続いている。下流タスクにおける一般化能力の程度は未だ不明である。これらのモデルが大規模なデータセットにどの程度効果的にスケールできるかは不明だ。
論文参考訳（メタデータ） (2024-06-12T15:10:44Z)
A-Bench: Are LMMs Masters at Evaluating AI-generated Images? [78.3699767628502]
A-Benchは、マルチモーダルモデル(LMM)がAI生成画像(AIGI)を評価するマスターであるかどうかを診断するために設計されたベンチマークである。最終的に、16のテキスト・ツー・イメージモデルの2,864のAIGIがサンプリングされ、それぞれが人間の専門家によって注釈付けされた質問回答と組み合わせられ、18のLMMでテストされる。
論文参考訳（メタデータ） (2024-06-05T08:55:02Z)
Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文参考訳（メタデータ） (2024-03-29T17:59:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。