Fugu-MT 論文翻訳(概要): Multimodal LLMs Struggle with Basic Visual Network Analysis: a VNA Benchmark

論文の概要: Multimodal LLMs Struggle with Basic Visual Network Analysis: a VNA Benchmark

arxiv url: http://arxiv.org/abs/2405.06634v2
Date: Mon, 10 Jun 2024 15:28:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 00:04:39.276684
Title: Multimodal LLMs Struggle with Basic Visual Network Analysis: a VNA Benchmark
Title（参考訳）: 基本的ビジュアルネットワーク分析によるマルチモーダルLLMストルグル:VNAベンチマーク
Authors: Evan M. Williams, Kathleen M. Carley,
Abstract要約: GPT-4 と LLaVa のゼロショット能力を評価し,小規模グラフ上で単純な Visual Network Analysis タスクを実行する。 GPT-4はLLaVaより一貫して優れていますが、どちらのモデルも提案するすべての視覚的ネットワーク分析タスクに苦労しています。
参考スコア（独自算出の注目度）: 4.112909937203117
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We evaluate the zero-shot ability of GPT-4 and LLaVa to perform simple Visual Network Analysis (VNA) tasks on small-scale graphs. We evaluate the Vision Language Models (VLMs) on 5 tasks related to three foundational network science concepts: identifying nodes of maximal degree on a rendered graph, identifying whether signed triads are balanced or unbalanced, and counting components. The tasks are structured to be easy for a human who understands the underlying graph theoretic concepts, and can all be solved by counting the appropriate elements in graphs. We find that while GPT-4 consistently outperforms LLaVa, both models struggle with every visual network analysis task we propose. We publicly release the first benchmark for the evaluation of VLMs on foundational VNA tasks.
Abstract（参考訳）: GPT-4 と LLaVa のゼロショット能力を評価し,小型グラフ上で単純な Visual Network Analysis (VNA) タスクを実行する。我々は,3つの基礎的ネットワーク科学概念に関連する5つのタスクについて,視覚言語モデル (VLM) の評価を行った。これらのタスクは、基礎となるグラフ理論の概念を理解する人間にとって簡単なように構成されており、グラフの適切な要素を数えることによって全てを解決できる。 GPT-4はLLaVaより一貫して優れていますが、どちらのモデルも提案するすべての視覚的ネットワーク分析タスクに苦労しています。基礎的なVNAタスクにおけるVLMの評価のための最初のベンチマークを公開している。

関連論文リスト

One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。 V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文参考訳（メタデータ） (2025-05-23T17:41:14Z)
Graph-to-Vision: Multi-graph Understanding and Reasoning using Vision-Language Models [10.813015912529936]
VLM(Vision-Language Models)は、例外的なクロスモーダルな関係推論能力と一般化能力を示す。我々のベンチマークでは、知識グラフ、フローチャート、マインドマップ、ルートマップの4つのグラフカテゴリを網羅し、各グラフグループには、段階的に困難な3つの命令応答ペアが伴っている。本研究は,VLMのマルチグラフ推論における未探索評価ギャップに対処するだけでなく,グラフ構造化学習における一般化優位性を実証的に検証する。
論文参考訳（メタデータ） (2025-03-27T12:20:37Z)
Towards Understanding Graphical Perception in Large Multimodal Models [80.44471730672801]
我々は,グラフにおけるLMMの知覚能力のギャップを分析するための評価フレームワークを開発するために,グラフィカル知覚の理論を利用する。我々は3つのレベル(チャート、ビジュアル要素、ピクセル)における最先端LMMの知覚能力の評価と診断にフレームワークを適用した。
論文参考訳（メタデータ） (2025-03-13T20:13:39Z)
Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文参考訳（メタデータ） (2025-02-17T06:54:49Z)
Towards Graph Foundation Models: Learning Generalities Across Graphs via Task-Trees [50.78679002846741]
グラフにおけるクロスタスクの一般性を学習するための新しいアプローチを提案する。グラフ上のタスク空間を整列させるための基本的な学習インスタンスとしてタスクツリーを提案する。その結果,グラフニューラルネットワークが多種多様なタスクツリーで事前訓練された場合,伝達可能な知識を取得することが示唆された。
論文参考訳（メタデータ） (2024-12-21T02:07:43Z)
Beyond Visual Understanding: Introducing PARROT-360V for Vision Language Model Benchmarking [0.12369742273401668]
2487の難解な視覚パズルを特徴とする新しい総合ベンチマークであるPARROT-360Vベンチマークを紹介する。 GPT-4o, Claude-3.5-Sonnet, Gemini-1.5-Pro の先行モデルの評価を行った。最新モデルのスコアはベンチマークで28～56パーセンテージで、一般的なベンチマークでのパフォーマンスよりも大幅に低かった。
論文参考訳（メタデータ） (2024-11-20T01:09:21Z)
HumanEval-V: Benchmarking High-Level Visual Reasoning with Complex Diagrams in Coding Tasks [25.959032350818795]
人間のアノテーションによるコーディングタスクのベンチマークであるHumanEval-Vを提案する。各タスクは、関数シグネチャとテストケースを組み合わせた、慎重に構築されたダイアグラムを備えている。トップパフォーマンスモデルでさえ、控えめな成功率を実現しています。
論文参考訳（メタデータ） (2024-10-16T09:04:57Z)
Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。 LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文参考訳（メタデータ） (2024-10-07T05:07:01Z)
How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文参考訳（メタデータ） (2024-10-04T04:48:33Z)
Revisiting the Graph Reasoning Ability of Large Language Models: Case Studies in Translation, Connectivity and Shortest Path [53.71787069694794]
大規模言語モデル(LLM)のグラフ推論能力に着目する。グラフ記述変換,グラフ接続,最短パス問題という3つの基本グラフタスクにおけるLLMの能力を再考する。この結果から,LLMはテキスト記述によるグラフ構造理解に失敗し,これらの基本課題に対して様々な性能を示すことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-08-18T16:26:39Z)
AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文参考訳（メタデータ） (2024-05-22T12:18:52Z)
SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文参考訳（メタデータ） (2023-08-03T07:00:04Z)
Multi-task Self-supervised Graph Neural Networks Enable Stronger Task Generalization [40.265515914447924]
近年,グラフニューラルネットワーク(GNN)のための自己教師付き学習(SSL)が機械学習コミュニティから注目を集めている。 GNNの従来のSSLフレームワークの弱点の1つは、単一の哲学から学ぶことである。
論文参考訳（メタデータ） (2022-10-05T04:09:38Z)
Temporal Graph Network Embedding with Causal Anonymous Walks Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文参考訳（メタデータ） (2021-08-19T15:39:52Z)
Graph-Based Neural Network Models with Multiple Self-Supervised Auxiliary Tasks [79.28094304325116]
グラフ畳み込みネットワークは、構造化されたデータポイント間の関係をキャプチャするための最も有望なアプローチである。マルチタスク方式でグラフベースニューラルネットワークモデルを学習するための3つの新しい自己教師付き補助タスクを提案する。
論文参考訳（メタデータ） (2020-11-14T11:09:51Z)
Evaluating Logical Generalization in Graph Neural Networks [59.70452462833374]
グラフニューラルネットワーク(GNN)を用いた論理一般化の課題について検討する。ベンチマークスイートであるGraphLogでは、学習アルゴリズムが異なる合成論理でルール誘導を実行する必要がある。モデルが一般化し適応する能力は、トレーニング中に遭遇する論理規則の多様性によって強く決定される。
論文参考訳（メタデータ） (2020-03-14T05:45:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。