論文の概要: Multimodal LLMs Struggle with Basic Visual Network Analysis: a VNA Benchmark
- arxiv url: http://arxiv.org/abs/2405.06634v1
- Date: Fri, 10 May 2024 17:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-13 15:08:38.935011
- Title: Multimodal LLMs Struggle with Basic Visual Network Analysis: a VNA Benchmark
- Title(参考訳): 基本的ビジュアルネットワーク分析によるマルチモーダルLLMストルグル:VNAベンチマーク
- Authors: Evan M. Williams, Kathleen M. Carley,
- Abstract要約: GPT-4 と LLaVa のゼロショット能力を評価し,小規模グラフ上で単純な Visual Network Analysis タスクを実行する。
GPT-4はLLaVaより一貫して優れていますが、どちらのモデルも提案するすべての視覚的ネットワーク分析タスクに苦労しています。
- 参考スコア(独自算出の注目度): 4.112909937203117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We evaluate the zero-shot ability of GPT-4 and LLaVa to perform simple Visual Network Analysis (VNA) tasks on small-scale graphs. We evaluate the Vision Language Models (VLMs) on 5 tasks related to three foundational network science concepts: identifying nodes of maximal degree on a rendered graph, identifying whether signed triads are balanced or unbalanced, and counting components. The tasks are structured to be easy for a human who understands the underlying graph theoretic concepts, and can all be solved by counting the appropriate elements in graphs. We find that while GPT-4 consistently outperforms LLaVa, both models struggle with every visual network analysis task we propose. We publicly release the first benchmark for the evaluation of VLMs on foundational VNA tasks.
- Abstract(参考訳): GPT-4 と LLaVa のゼロショット能力を評価し,小型グラフ上で単純な Visual Network Analysis (VNA) タスクを実行する。
我々は,3つの基礎的ネットワーク科学概念に関連する5つのタスクについて,視覚言語モデル (VLM) の評価を行った。
これらのタスクは、基礎となるグラフ理論の概念を理解する人間にとって簡単なように構成されており、グラフの適切な要素を数えることによって全てを解決できる。
GPT-4はLLaVaより一貫して優れていますが、どちらのモデルも提案するすべての視覚的ネットワーク分析タスクに苦労しています。
基礎的なVNAタスクにおけるVLMの評価のための最初のベンチマークを公開している。
関連論文リスト
- AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z) - UniGraph: Learning a Cross-Domain Graph Foundation Model From Natural
Language [41.722898353772656]
We present our UniGraph framework, designed to training a graph foundation model can generalizing to unseen graphs and task across various domain。
本稿では,MGM(Masked Graph Modeling)に基づく自己教師型学習目標を持つバックボーンネットワークとして,言語モデル(LM)とグラフニューラルネットワーク(GNN)のケースケードアーキテクチャを提案する。
さまざまなグラフ学習タスクやドメインにわたる包括的な実験は、目に見えないグラフの自己教師付き表現学習、少数ショットのインコンテキスト転送、ゼロショット転送におけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-21T09:06:31Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Multi-task Self-supervised Graph Neural Networks Enable Stronger Task
Generalization [40.265515914447924]
近年,グラフニューラルネットワーク(GNN)のための自己教師付き学習(SSL)が機械学習コミュニティから注目を集めている。
GNNの従来のSSLフレームワークの弱点の1つは、単一の哲学から学ぶことである。
論文 参考訳(メタデータ) (2022-10-05T04:09:38Z) - Temporal Graph Network Embedding with Causal Anonymous Walks
Representations [54.05212871508062]
本稿では,時間グラフネットワークに基づく動的ネットワーク表現学習のための新しいアプローチを提案する。
評価のために、時間的ネットワーク埋め込みの評価のためのベンチマークパイプラインを提供する。
欧州の大手銀行が提供した実世界のダウンストリームグラフ機械学習タスクにおいて、我々のモデルの適用性と優れた性能を示す。
論文 参考訳(メタデータ) (2021-08-19T15:39:52Z) - Graph-Based Neural Network Models with Multiple Self-Supervised
Auxiliary Tasks [79.28094304325116]
グラフ畳み込みネットワークは、構造化されたデータポイント間の関係をキャプチャするための最も有望なアプローチである。
マルチタスク方式でグラフベースニューラルネットワークモデルを学習するための3つの新しい自己教師付き補助タスクを提案する。
論文 参考訳(メタデータ) (2020-11-14T11:09:51Z) - GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training [62.73470368851127]
グラフ表現学習は現実世界の問題に対処する強力な手法として登場した。
自己教師付きグラフニューラルネットワーク事前トレーニングフレームワークであるGraph Contrastive Codingを設計する。
3つのグラフ学習タスクと10のグラフデータセットについて実験を行った。
論文 参考訳(メタデータ) (2020-06-17T16:18:35Z) - Evaluating Logical Generalization in Graph Neural Networks [59.70452462833374]
グラフニューラルネットワーク(GNN)を用いた論理一般化の課題について検討する。
ベンチマークスイートであるGraphLogでは、学習アルゴリズムが異なる合成論理でルール誘導を実行する必要がある。
モデルが一般化し適応する能力は、トレーニング中に遭遇する論理規則の多様性によって強く決定される。
論文 参考訳(メタデータ) (2020-03-14T05:45:55Z) - Weakly Supervised Visual Semantic Parsing [49.69377653925448]
SGG(Scene Graph Generation)は、画像からエンティティ、述語、それらの意味構造を抽出することを目的としている。
既存のSGGメソッドでは、トレーニングのために何百万もの手動アノテーション付きバウンディングボックスが必要である。
本稿では,ビジュアルセマンティック・パーシング,VSPNet,グラフベースの弱教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-08T03:46:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。