論文の概要: Arrow-Guided VLM: Enhancing Flowchart Understanding via Arrow Direction Encoding
- arxiv url: http://arxiv.org/abs/2505.07864v1
- Date: Fri, 09 May 2025 04:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.236698
- Title: Arrow-Guided VLM: Enhancing Flowchart Understanding via Arrow Direction Encoding
- Title(参考訳): Arrow-Guided VLM: Arrow Direction EncodingによるFlowchart理解の強化
- Authors: Takamitsu Omasa, Ryo Koshihara, Masumi Morishige,
- Abstract要約: フローチャートは、ソフトウェア設計とビジネスプロセス分析に欠かせないツールである。
現在の視覚言語モデル(VLM)は、方向矢印やグラフトポロジーをしばしば誤解している。
より広い3つのプロセスにグループ化された7段階のパイプラインを導入します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Flowcharts are indispensable tools in software design and business-process analysis, yet current vision-language models (VLMs) frequently misinterpret the directional arrows and graph topology that set these diagrams apart from natural images. We introduce a seven-stage pipeline grouped into three broader processes: (1) arrow-aware detection of nodes and arrow endpoints; (2) optical character recognition (OCR) to extract node text; and (3) construction of a structured prompt that guides the VLMs. Tested on a 90-question benchmark distilled from 30 annotated flowcharts, the method raises overall accuracy from 80 % to 89 % (+9 percentage points) without any task-specific fine-tuning. The gain is most pronounced for next-step queries (25/30 -> 30/30; 100 %, +17 pp); branch-result questions improve more modestly, and before-step questions remain difficult. A parallel evaluation with an LLM-as-a-Judge protocol shows the same trends, reinforcing the advantage of explicit arrow encoding. Limitations include dependence on detector and OCR precision, the small evaluation set, and residual errors at nodes with multiple incoming edges. Future work will enlarge the benchmark with synthetic and handwritten flowcharts and assess the approach on Business Process Model and Notation (BPMN) and Unified Modeling Language (UML).
- Abstract(参考訳): フローチャートは、ソフトウェア設計やビジネスプロセス分析において欠かせないツールであるが、現在の視覚言語モデル(VLM)は、これらの図を自然な画像と区別する方向矢印やグラフトポロジーをしばしば誤解する。
我々は,(1)ノードと矢印エンドポイントの矢印認識,(2)ノードテキスト抽出のための光学文字認識(OCR),(3)VLMを誘導する構造化プロンプトの構築という,3つのプロセスにグループ化された7段階のパイプラインを紹介した。
30個のアノテートフローチャートから抽出した90クエストベンチマークで試験したところ、タスク固有の微調整をせずに、全体の精度を80%から89%(+9ポイント)に引き上げることができた。
次ステップのクエリ(25/30 -> 30/30; 100 %, +17 pp)では最も高い利得が得られる。
LLM-as-a-Judgeプロトコルによる並列評価では,矢印符号化の利点を補強し,同じ傾向を示す。
制限には検出器とOCR精度への依存、小さな評価セット、複数のエッジを持つノードの残差エラーが含まれる。
将来的には、合成および手書きのフローチャートでベンチマークを拡大し、BPMN(Business Process Model and Notation)とUML(Unified Modeling Language)に対するアプローチを評価する予定である。
関連論文リスト
- Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework [17.838177710655287]
MRAG(Multimodal Retrieval-Augmented Generation)は、外部知識を統合することで推論能力を向上させる。
既存のベンチマークは主に、現実世界のアプリケーションで広く使われているチャートのような複雑なビジュアルフォーマットを見渡す、単純な画像とテキストのインタラクションに焦点を当てている。
本稿では、構造化キーポイント抽出、クロスモーダル検証、キーポイントベース生成による評価データを生成するフレームワークであるCHARGE(CHARt-based document question-anwering GEneration)を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:59:42Z) - Enhancing Input-Label Mapping in In-Context Learning with Contrastive Decoding [71.01099784480597]
大規模言語モデル(LLM)は、コンテキスト内学習(ICL)を通じて、様々なタスクで優れる
In-Context Contrastive Decoding (ICCD)を導入する。
ICCDは、正と負のインコンテキストの例の出力分布を対比することで、入力ラベルマッピングを強調する。
論文 参考訳(メタデータ) (2025-02-19T14:04:46Z) - Beyond End-to-End VLMs: Leveraging Intermediate Text Representations for Superior Flowchart Understanding [9.267156820352996]
フローチャートは一般的にイメージとして表示され、エンドツーエンドのフローチャート理解に視覚言語モデル(VLM)を使用する傾向が引き起こされる。
i) 制限された制御可能性 - ユーザはダウンストリームタスクに対して最小限の影響しか持たないが、VLMのトレーニングは手の届かないことが多い。
上記の問題に,視覚的テクスチャライザとテクスチャライザの2つの段階で対処するテキストフローを提案する。
論文 参考訳(メタデータ) (2024-12-21T00:52:41Z) - Instance-Aware Graph Prompt Learning [71.26108600288308]
本稿では,インスタンス対応グラフプロンプト学習(IA-GPL)について紹介する。
このプロセスでは、軽量アーキテクチャを使用して各インスタンスの中間プロンプトを生成する。
複数のデータセットと設定で実施された実験は、最先端のベースラインと比較して、IA-GPLの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-11-26T18:38:38Z) - NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。
本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。
NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文 参考訳(メタデータ) (2024-07-16T04:52:39Z) - FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding [52.35520385083425]
FlowLearnデータセットは、フローチャートの理解を強化するために設計されたリソースである。
科学的サブセットは、科学文献から得られた3,858のフローチャートを含んでいる。
シミュレーションされたサブセットには、カスタマイズ可能なスクリプトを使用して作成された10,000のフローチャートが含まれている。
論文 参考訳(メタデータ) (2024-07-06T20:58:51Z) - Momentum Decoding: Open-ended Text Generation As Graph Exploration [49.812280360794894]
自動回帰言語モデル(LM)を用いたオープンエンドテキスト生成は、自然言語処理における中核的なタスクの1つである。
我々は、新しい視点から、すなわち、有向グラフ内の探索プロセスとして、オープンエンドテキスト生成を定式化する。
本稿では,新しい復号法であるtextitmomentum decodingを提案する。
論文 参考訳(メタデータ) (2022-12-05T11:16:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。