論文の概要: Multimodal LLMs Struggle with Basic Visual Network Analysis: a VNA Benchmark
- arxiv url: http://arxiv.org/abs/2405.06634v2
- Date: Mon, 10 Jun 2024 15:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:04:39.276684
- Title: Multimodal LLMs Struggle with Basic Visual Network Analysis: a VNA Benchmark
- Title(参考訳): 基本的ビジュアルネットワーク分析によるマルチモーダルLLMストルグル:VNAベンチマーク
- Authors: Evan M. Williams, Kathleen M. Carley,
- Abstract要約: GPT-4 と LLaVa のゼロショット能力を評価し,小規模グラフ上で単純な Visual Network Analysis タスクを実行する。
GPT-4はLLaVaより一貫して優れていますが、どちらのモデルも提案するすべての視覚的ネットワーク分析タスクに苦労しています。
- 参考スコア(独自算出の注目度): 4.112909937203117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate the zero-shot ability of GPT-4 and LLaVa to perform simple Visual Network Analysis (VNA) tasks on small-scale graphs. We evaluate the Vision Language Models (VLMs) on 5 tasks related to three foundational network science concepts: identifying nodes of maximal degree on a rendered graph, identifying whether signed triads are balanced or unbalanced, and counting components. The tasks are structured to be easy for a human who understands the underlying graph theoretic concepts, and can all be solved by counting the appropriate elements in graphs. We find that while GPT-4 consistently outperforms LLaVa, both models struggle with every visual network analysis task we propose. We publicly release the first benchmark for the evaluation of VLMs on foundational VNA tasks.
- Abstract(参考訳): GPT-4 と LLaVa のゼロショット能力を評価し,小型グラフ上で単純な Visual Network Analysis (VNA) タスクを実行する。
我々は,3つの基礎的ネットワーク科学概念に関連する5つのタスクについて,視覚言語モデル (VLM) の評価を行った。
これらのタスクは、基礎となるグラフ理論の概念を理解する人間にとって簡単なように構成されており、グラフの適切な要素を数えることによって全てを解決できる。
GPT-4はLLaVaより一貫して優れていますが、どちらのモデルも提案するすべての視覚的ネットワーク分析タスクに苦労しています。
基礎的なVNAタスクにおけるVLMの評価のための最初のベンチマークを公開している。
関連論文リスト
- Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking [0.12369742273401668]
2487の難解な視覚パズルを特徴とする新しい総合ベンチマークであるPARROT-360Vベンチマークを紹介する。
GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro の先行モデルの評価を行った。
最新モデルのスコアはベンチマークで28~56パーセンテージで、一般的なベンチマークでのパフォーマンスよりも大幅に低かった。
論文 参考訳(メタデータ) (2024-11-20T01:09:21Z) - Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。
高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。
LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文 参考訳(メタデータ) (2024-10-07T05:07:01Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - Revisiting the Graph Reasoning Ability of Large Language Models: Case Studies in Translation, Connectivity and Shortest Path [53.71787069694794]
大規模言語モデル(LLM)のグラフ推論能力に着目する。
グラフ記述変換,グラフ接続,最短パス問題という3つの基本グラフタスクにおけるLLMの能力を再考する。
この結果から,LLMはテキスト記述によるグラフ構造理解に失敗し,これらの基本課題に対して様々な性能を示すことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-08-18T16:26:39Z) - AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Multi-task Self-supervised Graph Neural Networks Enable Stronger Task
Generalization [40.265515914447924]
近年,グラフニューラルネットワーク(GNN)のための自己教師付き学習(SSL)が機械学習コミュニティから注目を集めている。
GNNの従来のSSLフレームワークの弱点の1つは、単一の哲学から学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T04:09:38Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - Graph-Based Neural Network Models with Multiple Self-Supervised
Auxiliary Tasks [79.28094304325116]
グラフ畳み込みネットワークは、構造化されたデータポイント間の関係をキャプチャするための最も有望なアプローチである。
マルチタスク方式でグラフベースニューラルネットワークモデルを学習するための3つの新しい自己教師付き補助タスクを提案する。
論文 参考訳(メタデータ) (2020-11-14T11:09:51Z) - Evaluating Logical Generalization in Graph Neural Networks [59.70452462833374]
グラフニューラルネットワーク(GNN)を用いた論理一般化の課題について検討する。
ベンチマークスイートであるGraphLogでは、学習アルゴリズムが異なる合成論理でルール誘導を実行する必要がある。
モデルが一般化し適応する能力は、トレーニング中に遭遇する論理規則の多様性によって強く決定される。
論文 参考訳(メタデータ) (2020-03-14T05:45:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。