論文の概要: Structured Extraction from Business Process Diagrams Using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2511.22448v1
- Date: Thu, 27 Nov 2025 13:35:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.583474
- Title: Structured Extraction from Business Process Diagrams Using Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルを用いたビジネスプロセス図からの構造化抽出
- Authors: Pritam Deka, Barry Devereux,
- Abstract要約: 本稿では、画像から直接BPMNダイアグラムの構造的表現を抽出するビジョン言語モデル(VLM)を提案する。
また,テキストのリッチ化に光学文字認識(OCR)を導入し,生成した要素リストを評価する。
当社のアプローチは,オリジナルファイルが利用できないシナリオにおいて,ロバストなコンポーネント抽出を可能にする。
- 参考スコア(独自算出の注目度): 0.3007949058551534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Business Process Model and Notation (BPMN) is a widely adopted standard for representing complex business workflows. While BPMN diagrams are often exchanged as visual images, existing methods primarily rely on XML representations for computational analysis. In this work, we present a pipeline that leverages Vision-Language Models (VLMs) to extract structured JSON representations of BPMN diagrams directly from images, without requiring source model files or textual annotations. We also incorporate optical character recognition (OCR) for textual enrichment and evaluate the generated element lists against ground truth data derived from the source XML files. Our approach enables robust component extraction in scenarios where original source files are unavailable. We benchmark multiple VLMs and observe performance improvements in several models when OCR is used for text enrichment. In addition, we conducted extensive statistical analyses of OCR-based enrichment methods and prompt ablation studies, providing a clearer understanding of their impact on model performance.
- Abstract(参考訳): ビジネスプロセスモデルと表記(BPMN)は、複雑なビジネスワークフローを表現するために広く採用されている標準です。
BPMNダイアグラムはしばしばビジュアルイメージとして交換されるが、既存のメソッドは主に計算分析のためにXML表現に依存している。
本稿では、VLM(Vision-Language Models)を利用して、ソースモデルファイルやテキストアノテーションを必要とせずに、画像から直接BPMNダイアグラムの構造化JSON表現を抽出するパイプラインを提案する。
また、テキストのリッチ化に光学文字認識(OCR)を導入し、生成した要素リストを、ソースXMLファイルから派生した真理データに対して評価する。
当社のアプローチは,オリジナルファイルが利用できないシナリオにおいて,ロバストなコンポーネント抽出を可能にする。
我々は複数のVLMをベンチマークし、OCRをテキストエンリッチメントに使用する場合、複数のモデルの性能改善を観察する。
さらに,OCRを用いたエンリッチメント手法の広範な統計的解析とアブレーション研究の促進を行い,モデル性能への影響をより明確にした。
関連論文リスト
- Leveraging Machine Learning and Enhanced Parallelism Detection for BPMN Model Generation from Text [75.77648333476776]
本稿では、テキストからBPMNモデルを抽出する自動パイプラインについて紹介する。
この研究の重要な貢献は、新たに注釈付けされたデータセットの導入である。
モデルトレーニング用の32のパラレルゲートウェイを含む15の注釈付き文書でデータセットを増強する。
論文 参考訳(メタデータ) (2025-07-11T07:25:55Z) - An analysis of vision-language models for fabric retrieval [4.311804611758908]
情報検索やレコメンデーションシステムといったアプリケーションには,クロスモーダル検索が不可欠である。
本稿では,ファブリックサンプルのゼロショットテキスト・ツー・イメージ検索におけるビジョン言語モデルの利用について検討する。
論文 参考訳(メタデータ) (2025-07-07T08:00:18Z) - SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation [5.458935851230595]
テキストおよび視覚的検索・拡張生成(RAG)システムを強化した新しいアプローチであるSCANを提案する。
SCANは、ドキュメントを連続的なコンポーネントをカバーする一貫性のある領域に分割する、粗い粒度のセマンティックアプローチを使用する。
英語と日本語のデータセットを対象とした実験の結果、SCANの適用により、エンドツーエンドのRAG性能が最大9.0%向上し、ビジュアルRAG性能が最大6.4%向上することが示された。
論文 参考訳(メタデータ) (2025-05-20T14:03:24Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Overcoming Vision Language Model Challenges in Diagram Understanding: A Proof-of-Concept with XML-Driven Large Language Models Solutions [0.0]
ダイアグラムは、ビジネスドキュメント内の複雑な関係やプロセスを視覚的に伝達する上で重要な役割を担います。
近年の視覚言語モデル(VLM)の様々な画像理解タスクの進歩にもかかわらず、図中の構造を正確に識別し抽出することは大きな課題である。
本研究では,VLMの視覚認識能力への依存を回避し,テキスト駆動型アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-05T23:40:26Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - From Dialogue to Diagram: Task and Relationship Extraction from Natural
Language for Accelerated Business Process Prototyping [0.0]
本稿では、依存性解析と名前付きエンティティ認識(NER)の利用を、我々のアプローチの中心とする現代的ソリューションを紹介します。
我々は,行動関係の同定にSVO(Subject-Verb-Object)構造を用い,コンテキスト理解のためのWordNetなどの意味分析ツールを統合する。
このシステムはデータ変換と視覚化を十分に処理し、冗長に抽出された情報をBPMN(Business Process Model and Notation)ダイアグラムに変換する。
論文 参考訳(メタデータ) (2023-12-16T12:35:28Z) - VSR: A Unified Framework for Document Layout Analysis combining Vision,
Semantics and Relations [40.721146438291335]
視覚、意味論、関係性を組み合わせた文書レイアウト解析のための統一フレームワークVSRを提案する。
人気のある3つのベンチマークでは、vsrは以前のモデルを大きく上回っている。
論文 参考訳(メタデータ) (2021-05-13T12:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。