論文の概要: Beyond End-to-End VLMs: Leveraging Intermediate Text Representations for Superior Flowchart Understanding
- arxiv url: http://arxiv.org/abs/2412.16420v1
- Date: Sat, 21 Dec 2024 00:52:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 16:00:52.073438
- Title: Beyond End-to-End VLMs: Leveraging Intermediate Text Representations for Superior Flowchart Understanding
- Title(参考訳): 終端から終端までのVLM:上フローチャート理解のための中間テキスト表現の活用
- Authors: Junyi Ye, Ankan Dash, Wenpeng Yin, Guiling Wang,
- Abstract要約: フローチャートは一般的にイメージとして表示され、エンドツーエンドのフローチャート理解に視覚言語モデル(VLM)を使用する傾向が引き起こされる。
i) 制限された制御可能性 - ユーザはダウンストリームタスクに対して最小限の影響しか持たないが、VLMのトレーニングは手の届かないことが多い。
上記の問題に,視覚的テクスチャライザとテクスチャライザの2つの段階で対処するテキストフローを提案する。
- 参考スコア(独自算出の注目度): 9.267156820352996
- License:
- Abstract: Flowcharts are typically presented as images, driving the trend of using vision-language models (VLMs) for end-to-end flowchart understanding. However, two key challenges arise: (i) Limited controllability--users have minimal influence over the downstream task, as they can only modify input images, while the training of VLMs is often out of reach for most researchers. (ii) Lack of explainability--it is difficult to trace VLM errors to specific causes, such as failures in visual encoding or reasoning. We propose TextFlow, addressing aforementioned issues with two stages: (i) Vision Textualizer--which generates textual representations from flowchart images; and (ii) Textual Reasoner--which performs question-answering based on the text representations. TextFlow offers three key advantages: (i) users can select the type of text representations (e.g., Graphviz, Mermaid, PlantUML), or further convert them into executable graph object to call tools, enhancing performance and controllability; (ii) it improves explainability by helping to attribute errors more clearly to visual or textual processing components; and (iii) it promotes the modularization of the solution, such as allowing advanced LLMs to be used in the Reasoner stage when VLMs underperform in end-to-end fashion. Experiments on the FlowVQA and FlowLearn benchmarks demonstrate TextFlow's state-of-the-art performance as well as its robustness. All code is publicly available.
- Abstract(参考訳): フローチャートは一般的にイメージとして表示され、エンドツーエンドのフローチャート理解に視覚言語モデル(VLM)を使用する傾向が引き起こされる。
しかし、主な課題は2つある。
一 利用者は入力画像のみを修正できるため、ダウンストリームタスクに最小限の影響を及ぼすが、VLMの訓練は殆どの研究者には及ばないことが多い。
(ii) 説明可能性の欠如-視覚的エンコーディングや推論の失敗など、VLMエラーを特定の原因に追跡することは困難である。
上記の問題に2つの段階で対処するTextFlowを提案する。
一 視覚テクスチャライザ-フローチャート画像からテキスト表現を生成するもの
(ii)テキスト表現に基づく質問応答を行うテキスト推論装置。
TextFlowには3つの大きな利点がある。
(i)ユーザは、テキスト表現の種類(例えば、Graphviz、Mermaid、P植物UML)を選択したり、さらに実行可能なグラフオブジェクトに変換してツールを呼び出して、パフォーマンスと制御性を向上させることができる。
(二)視覚的又はテキスト的処理コンポーネントにエラーをより明確に属性させることにより、説明可能性を向上させる。
第三に、VLMがエンド・ツー・エンドで性能が低下した場合に、先進的なLCMをReasonerの段階で使用できるようにするなど、ソリューションのモジュール化を促進する。
FlowVQAとFlowLearnベンチマークの実験では、TextFlowの最先端のパフォーマンスと堅牢性を実証している。
すべてのコードは公開されている。
関連論文リスト
- Overcoming Vision Language Model Challenges in Diagram Understanding: A Proof-of-Concept with XML-Driven Large Language Models Solutions [0.0]
ダイアグラムは、ビジネスドキュメント内の複雑な関係やプロセスを視覚的に伝達する上で重要な役割を担います。
近年の視覚言語モデル(VLM)の様々な画像理解タスクの進歩にもかかわらず、図中の構造を正確に識別し抽出することは大きな課題である。
本研究では,VLMの視覚認識能力への依存を回避し,テキスト駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-05T23:40:26Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - FTII-Bench: A Comprehensive Multimodal Benchmark for Flow Text with Image Insertion [7.322448493179106]
Flow Text with Image Insertion Taskでは、LVLMは画像理解、命令理解、長文解釈において優れた能力を持つ必要がある。
318の高品質な中国語画像テキストニュース記事と307の高品質な英語画像テキストニュース記事を含む、画像挿入ベンチマーク付きフローテキスト(FTII-Bench)を導入し、10の異なるニュースドメインをカバーする。
9つのオープンソースと2つのクローズドソースのLVLMと2つのCLIPベースのモデルを評価した。
論文 参考訳(メタデータ) (2024-10-16T13:38:31Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - FlowLearn: Evaluating Large Vision-Language Models on Flowchart Understanding [52.35520385083425]
FlowLearnデータセットは、フローチャートの理解を強化するために設計されたリソースである。
科学的サブセットは、科学文献から得られた3,858のフローチャートを含んでいる。
シミュレーションされたサブセットには、カスタマイズ可能なスクリプトを使用して作成された10,000のフローチャートが含まれている。
論文 参考訳(メタデータ) (2024-07-06T20:58:51Z) - Progressive Multi-modal Conditional Prompt Tuning [92.50645776024624]
事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。
本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。
ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
論文 参考訳(メタデータ) (2024-04-18T02:40:31Z) - Visually Descriptive Language Model for Vector Graphics Reasoning [76.42082386029206]
低レベル視覚知覚と高レベル言語推論のギャップを埋めるための視覚記述型言語モデル(VDLM)を提案する。
VDLMは,様々なマルチモーダル認識および推論タスクにおいて,GPT-4oのような最先端のLMMを大幅に改善することを示す。
論文 参考訳(メタデータ) (2024-04-09T17:30:18Z) - VILA: On Pre-training for Visual Language Models [74.08039416548209]
ステップ・バイ・ステップ制御可能な比較によるVLM事前学習の設計オプションについて検討した。
私たちは、最先端のモデルよりも一貫して優れたVisual LanguageモデルファミリであるVILAを構築します。
論文 参考訳(メタデータ) (2023-12-12T18:58:18Z) - Which Modality should I use -- Text, Motif, or Image? : Understanding Graphs with Large Language Models [14.251972223585765]
本稿では,テキスト,画像,モチーフなどの多様性を持つグラフを符号化する新たな手法を提案する。
また、グラフ構造解析において、LLM(Large Language Models)を評価するための新しいベンチマークであるGraphTMIも提示されている。
論文 参考訳(メタデータ) (2023-11-16T12:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。