論文の概要: FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding
- arxiv url: http://arxiv.org/abs/2407.05183v1
- Date: Sat, 6 Jul 2024 20:58:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 20:46:54.664902
- Title: FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding
- Title(参考訳): FlowLearn:フローチャート理解のための大規模視覚言語モデルの評価
- Authors: Huitong Pan, Qi Zhang, Cornelia Caragea, Eduard Dragut, Longin Jan Latecki,
- Abstract要約: FlowLearnデータセットは、フローチャートの理解を強化するために設計されたリソースである。
科学的サブセットは、科学文献から得られた3,858のフローチャートを含んでいる。
シミュレーションされたサブセットには、カスタマイズ可能なスクリプトを使用して作成された10,000のフローチャートが含まれている。
- 参考スコア(独自算出の注目度): 52.35520385083425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Flowcharts are graphical tools for representing complex concepts in concise visual representations. This paper introduces the FlowLearn dataset, a resource tailored to enhance the understanding of flowcharts. FlowLearn contains complex scientific flowcharts and simulated flowcharts. The scientific subset contains 3,858 flowcharts sourced from scientific literature and the simulated subset contains 10,000 flowcharts created using a customizable script. The dataset is enriched with annotations for visual components, OCR, Mermaid code representation, and VQA question-answer pairs. Despite the proven capabilities of Large Vision-Language Models (LVLMs) in various visual understanding tasks, their effectiveness in decoding flowcharts - a crucial element of scientific communication - has yet to be thoroughly investigated. The FlowLearn test set is crafted to assess the performance of LVLMs in flowchart comprehension. Our study thoroughly evaluates state-of-the-art LVLMs, identifying existing limitations and establishing a foundation for future enhancements in this relatively underexplored domain. For instance, in tasks involving simulated flowcharts, GPT-4V achieved the highest accuracy (58%) in counting the number of nodes, while Claude recorded the highest accuracy (83%) in OCR tasks. Notably, no single model excels in all tasks within the FlowLearn framework, highlighting significant opportunities for further development.
- Abstract(参考訳): フローチャートは、複雑な概念を簡潔な視覚表現で表現するためのグラフィカルなツールである。
本稿ではフローチャートの理解を深めるためのリソースであるFlowLearnデータセットを紹介する。
FlowLearnは複雑な科学的フローチャートとシミュレートされたフローチャートを含んでいる。
科学的サブセットは、科学文献から得られた3,858個のフローチャートを含み、シミュレートされたサブセットは、カスタマイズ可能なスクリプトを使用して作成された10,000個のフローチャートを含む。
データセットには、ビジュアルコンポーネント、OCR、Mermaidコード表現、VQA質問応答ペアのアノテーションが備わっている。
様々な視覚的理解タスクにおけるLVLM(Large Vision-Language Models)の実証された能力にもかかわらず、フローチャートの復号化は科学的コミュニケーションの重要な要素であり、まだ十分には研究されていない。
FlowLearnテストセットは、フローチャート理解におけるLVLMの性能を評価するために作られている。
本研究は、現状のLVLMを徹底的に評価し、既存の限界を特定し、この比較的未探索領域における将来の拡張基盤を確立する。
例えば、シミュレーションフローチャートを含むタスクでは、GPT-4Vはノード数をカウントする際の最高精度(58%)を達成し、ClaudeはOCRタスクの最高精度(83%)を記録した。
注目すべきなのは,FlowLearnフレームワーク内のすべてのタスクにおいて,ひとつのモデルが優れていないことだ。
関連論文リスト
- On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models [0.34952465649465553]
本研究では,フローチャートに関連するタスクに対して,MLLMを様々な次元にわたって評価する最初の包括的手法であるFlowCEを提案する。
GPT4oモデルでさえ56.63のスコアしか得られないことがわかった。
オープンソースモデルの中で、Phi-3-Visionは49.97という最高スコアを獲得した。
論文 参考訳(メタデータ) (2024-06-14T14:15:35Z) - AltChart: Enhancing VLM-based Chart Summarization Through Multi-Pretext Tasks [31.414783623207477]
本稿では,AltChartデータセットについて紹介する。
本稿では,視覚言語モデル(VLM)を事前学習し,詳細なチャート表現を学習する手法を提案する。
我々は,4つの主要なチャート要約モデルの広範囲な評価を行い,それらの記述がどの程度アクセス可能かを分析した。
論文 参考訳(メタデータ) (2024-05-22T12:18:52Z) - Parameter-Efficient Tuning Large Language Models for Graph Representation Learning [62.26278815157628]
Graph-awareを導入します。
GPEFT - グラフ表現学習のための新しい手法。
グラフニューラルネットワーク(GNN)を用いて、隣接するノードからグラフプロンプトに構造情報をエンコードする。
我々は8つの異なるテキストリッチグラフで実施した総合的な実験を通じて,リンク予測評価において hit@1 と Mean Reciprocal Rank (MRR) の平均 2% の改善を観察し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-04-28T18:36:59Z) - SimTeG: A Frustratingly Simple Approach Improves Textual Graph Learning [131.04781590452308]
テキストグラフ学習におけるフラストレーションに富んだアプローチであるSimTeGを提案する。
まず、下流タスクで予め訓練されたLM上で、教師付きパラメータ効率の微調整(PEFT)を行う。
次に、微調整されたLMの最後の隠れ状態を用いてノード埋め込みを生成する。
論文 参考訳(メタデータ) (2023-08-03T07:00:04Z) - Exploring the Potential of Large Language Models (LLMs) in Learning on
Graphs [59.74814230246034]
大規模言語モデル(LLM)は、広範な共通知識と強力な意味理解能力を持つことが証明されている。
LLMs-as-EnhancersとLLMs-as-Predictorsの2つのパイプラインについて検討する。
論文 参考訳(メタデータ) (2023-07-07T05:31:31Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z) - Generative Flow Networks for Precise Reward-Oriented Active Learning on
Graphs [34.76241250013461]
本稿では,グラフ能動学習問題をGFlowGNNと呼ばれる生成過程として定式化し,逐次動作によって様々なサンプルを生成する。
提案手法は,様々な最先端手法よりも優れた探索能力と伝達性を有することを示す。
論文 参考訳(メタデータ) (2023-04-24T10:47:08Z) - A Unified Active Learning Framework for Annotating Graph Data with
Application to Software Source Code Performance Prediction [4.572330678291241]
ソフトウェアの性能予測を専門とする一貫したアクティブラーニングフレームワークを開発した。
能動的・受動的学習に異なるレベルの情報を用いることが与える影響について検討する。
我々のアプローチは、異なるソフトウェアパフォーマンス予測のためのAIモデルへの投資を改善することを目的としています。
論文 参考訳(メタデータ) (2023-04-06T14:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。