Fugu-MT 論文翻訳(概要): Benchmarking and Improving Large Vision-Language Models for Fundamental Visual Graph Understanding and Reasoning

論文の概要: Benchmarking and Improving Large Vision-Language Models for Fundamental Visual Graph Understanding and Reasoning

arxiv url: http://arxiv.org/abs/2412.13540v1
Date: Wed, 18 Dec 2024 06:35:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:52.081729
Title: Benchmarking and Improving Large Vision-Language Models for Fundamental Visual Graph Understanding and Reasoning
Title（参考訳）: ビジュアルグラフ理解と推論のための大規模視覚言語モデルのベンチマークと改善
Authors: Yingjie Zhu, Xuefeng Bai, Kehai Chen, Yang Xiang, Min Zhang,
Abstract要約: LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な性能を示す。近年の研究では、LVLMは視覚グラフに係わる際にかなりの制限を受けることが示されている。 LVLMの基本的グラフ理解と推論能力を調べるための22のタスクをカバーするベンチマークであるVGCureを提案する。
参考スコア（独自算出の注目度）: 28.736341270504315
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Vision-Language Models (LVLMs) have demonstrated remarkable performance across diverse tasks. Despite great success, recent studies show that LVLMs encounter substantial limitations when engaging with visual graphs. To study the reason behind these limitations, we propose VGCure, a comprehensive benchmark covering 22 tasks for examining the fundamental graph understanding and reasoning capacities of LVLMs. Extensive evaluations conducted on 14 LVLMs reveal that LVLMs are weak in basic graph understanding and reasoning tasks, particularly those concerning relational or structurally complex information. Based on this observation, we propose a structure-aware fine-tuning framework to enhance LVLMs with structure learning abilities through 3 self-supervised learning tasks. Experiments validate the effectiveness of our method in improving LVLMs' zero-shot performance on fundamental graph learning tasks, as well as enhancing the robustness of LVLMs against complex visual graphs.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な性能を示す。非常に成功したにもかかわらず、近年の研究では、LVLMは視覚グラフに係わる際にかなりの制限を受けることが示されている。これらの制約の背景にある理由を考察するため、LVLMの基本的グラフ理解と推論能力を調べるための22のタスクを網羅した総合的なベンチマークであるVGCureを提案する。 14のLVLMに対して行われた広範囲な評価により、LVLMは基本的なグラフ理解や推論タスク、特に関係性や構造的に複雑な情報に弱いことが判明した。本研究は,3つの自己教師型学習タスクを通じて,構造学習能力を有するLVLMを向上する構造対応微調整フレームワークを提案する。実験により,LVLMのゼロショット性能を基礎的なグラフ学習タスクに適用し,複雑なビジュアルグラフに対するLVLMの堅牢性を高める効果が検証された。

関連論文リスト

Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文参考訳（メタデータ） (2025-07-10T15:26:41Z)
Caption This, Reason That: VLMs Caught in the Middle [3.4820139118440676]
VLM(Vision-Language Models)は近年,視覚的理解の進歩を目覚ましいものにしている。カウントやリレーショナル推論といった視覚的なタスクでは、人間の能力が遅れている。認識,注意,記憶など,コア認知軸に沿ったVLMのパフォーマンスを解析する。
論文参考訳（メタデータ） (2025-05-24T14:25:48Z)
CausalVLBench: Benchmarking Visual Causal Reasoning in Large Vision-Language Models [10.530681458312412]
大規模視覚言語モデル(LVLM)は、認識や視覚的質問応答といったタスクにおいて顕著な性能を示している。 LVLMからのマルチモーダルインコンテキスト学習のための総合因果推論ベンチマークを導入する。 3つの因果表現学習データセットの因果推論タスクにおいて、最先端のオープンソースLVLMの能力を評価する。
論文参考訳（メタデータ） (2025-05-21T00:45:15Z)
Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文参考訳（メタデータ） (2025-04-21T09:30:41Z)
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement [91.88062410741833]
本研究では,類似の推論機能を大規模視覚言語モデル(LVLM)にうまく組み込むことができるか検討する。本稿では,教師付き微調整(SFT)と強化学習(RL)を反復的に活用し,モデル一般化をさらに改善する手法を検討する。 OpenVLThinkerは、MathVista、MathVerse、MathVisionといった挑戦的なベンチマークで一貫して改善された推論性能を示すLVLMである。
論文参考訳（メタデータ） (2025-03-21T17:52:43Z)
Are Large Language Models In-Context Graph Learners? [31.172657860606297]
大規模言語モデル(LLM)は、幅広いタスクにまたがる顕著なコンテキスト内推論機能を持つ。しかし、非ユークリッド構造に対する理解の欠如のため、グラフのような構造化データを扱うのに苦労している。グラフデータの学習は、検索強化生成(RAG)プロセスとして概念化できることを示す。グラフ学習タスクにおけるLLMの文脈内学習能力を高めるための一連のRAGフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-19T09:14:19Z)
Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding [94.64781599202882]
視覚言語モデル(VLM)はマルチモーダルタスクにおいて顕著な進歩を遂げた。彼らはしばしば、オブジェクトのカウントや長さ比較のような一見単純な機能である視覚的算術に苦しむ。我々は、ピアジェの認知発達理論に触発された新しいポストトレーニング戦略であるCogAlignを提案する。
論文参考訳（メタデータ） (2025-02-17T06:54:49Z)
Revisiting the Graph Reasoning Ability of Large Language Models: Case Studies in Translation, Connectivity and Shortest Path [53.71787069694794]
大規模言語モデル(LLM)のグラフ推論能力に着目する。グラフ記述変換,グラフ接続,最短パス問題という3つの基本グラフタスクにおけるLLMの能力を再考する。この結果から,LLMはテキスト記述によるグラフ構造理解に失敗し,これらの基本課題に対して様々な性能を示すことが可能であることが示唆された。
論文参考訳（メタデータ） (2024-08-18T16:26:39Z)
In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文参考訳（メタデータ） (2024-07-22T09:03:29Z)
Learning on Graphs with Large Language Models(LLMs): A Deep Dive into Model Robustness [39.57155321515097]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。 LLMがグラフ上での学習において堅牢性を示すかどうかは不明である。
論文参考訳（メタデータ） (2024-07-16T09:05:31Z)
Large Vision-Language Models as Emotion Recognizers in Context Awareness [14.85890824622433]
文脈対応感情認識(CAER)は、様々な文脈から感情を知覚する必要がある複雑で重要なタスクである。以前のアプローチは主に、イメージから感情的な手がかりを抽出する洗練されたアーキテクチャを設計することに焦点を当てていた。本稿では,LVLM(Large Vision-Language Models)を活用したCAERタスクの実現の可能性について,体系的に検討する。
論文参考訳（メタデータ） (2024-07-16T01:28:06Z)
Are Large Vision Language Models up to the Challenge of Chart Comprehension and Reasoning? An Extensive Investigation into the Capabilities and Limitations of LVLMs [11.19928977117624]
自然言語は、バーやラインチャートのようなデータ視覚化のためのコミュニケーションの強力な補完的モダリティである。近年,チャート質問応答,チャート要約,ファクトチェックなど,さまざまなダウンストリームタスクが導入されている。これらのタスクはユニークな課題であり、視覚言語推論とグラフデータテーブル、ビジュアルエンコーディング、自然言語プロンプトの微妙な理解の両方を要求する。本稿では,最近開発された大規模視覚言語モデル(LVLM)の総合的な評価を,チャート理解と推論のタスクに対して行った。
論文参考訳（メタデータ） (2024-06-01T01:43:30Z)
VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。ビデオタスクの文脈でLLMの実用性を拡張するための新しいアプローチである。我々は,その文脈学習能力を利用して,映像理解のための実行可能な視覚プログラムを生成する。
論文参考訳（メタデータ） (2024-03-21T18:00:00Z)
Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。 QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文参考訳（メタデータ） (2023-12-04T03:18:51Z)
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文参考訳（メタデータ） (2023-12-03T16:39:36Z)
Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-08T17:49:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。