論文の概要: MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis
- arxiv url: http://arxiv.org/abs/2407.02842v1
- Date: Wed, 3 Jul 2024 06:39:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 15:25:09.611937
- Title: MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis
- Title(参考訳): MindBench:マインドマップの構造認識と分析のための総合ベンチマーク
- Authors: Lei Chen, Feng Yan, Yujie Zhong, Shaoxiang Chen, Zequn Jie, Lin Ma,
- Abstract要約: 文書分析にMindBenchという新しいベンチマークを導入する。
これには、厳密に構築されたバイリンガル認証または合成画像、詳細なアノテーション、評価指標、ベースラインモデルが含まれる。
これらのタスクには、完全パース、部分パース、位置関連パース、構造化された視覚質問応答(VQA)、位置関連VQAが含まれる。
- 参考スコア(独自算出の注目度): 35.31073435549237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLM) have made significant progress in the field of document analysis. Despite this, existing benchmarks typically focus only on extracting text and simple layout information, neglecting the complex interactions between elements in structured documents such as mind maps and flowcharts. To address this issue, we introduce the new benchmark named MindBench, which not only includes meticulously constructed bilingual authentic or synthetic images, detailed annotations, evaluation metrics and baseline models, but also specifically designs five types of structured understanding and parsing tasks. These tasks include full parsing, partial parsing, position-related parsing, structured Visual Question Answering (VQA), and position-related VQA, covering key areas such as text recognition, spatial awareness, relationship discernment, and structured parsing. Extensive experimental results demonstrate the substantial potential and significant room for improvement in current models' ability to handle structured document information. We anticipate that the launch of MindBench will significantly advance research and application development in structured document analysis technology. MindBench is available at: https://miasanlei.github.io/MindBench.github.io/.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は文書解析の分野で大きな進歩を遂げている。
それにもかかわらず、既存のベンチマークはテキストと単純なレイアウト情報のみを抽出することに重点を置いており、マインドマップやフローチャートのような構造化ドキュメントの要素間の複雑な相互作用を無視している。
この問題に対処するために、MindBenchという新しいベンチマークを導入する。これは、厳密に構築されたバイリンガル認証や合成画像、詳細なアノテーション、評価指標、ベースラインモデルを含むだけでなく、5種類の構造化理解および解析タスクを設計する。
これらのタスクには、完全解析、部分解析、位置関連解析、構造化された視覚質問回答(VQA)、および位置関連VQAが含まれ、テキスト認識、空間認識、関係識別、構造化解析などの重要な領域をカバーする。
大規模な実験結果から、構造化文書情報を扱う現在のモデルの能力を改善するための大きな可能性と重要な余地が示される。
我々は、MindBenchのローンチが構造化文書分析技術の研究開発を著しく前進させることを期待している。
MindBench は以下の https://miasanlei.github.io/MindBench.github.io/ で利用可能である。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - SRFUND: A Multi-Granularity Hierarchical Structure Reconstruction Benchmark in Form Understanding [55.48936731641802]
階層的に構造化されたマルチタスク形式理解ベンチマークであるSRFUNDを提案する。
SRFUNDはオリジナルのFUNSDとXFUNDデータセットの上に洗練されたアノテーションを提供する。
データセットには、英語、中国語、日本語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語を含む8つの言語が含まれている。
論文 参考訳(メタデータ) (2024-06-13T02:35:55Z) - GeoContrastNet: Contrastive Key-Value Edge Learning for Language-Agnostic Document Understanding [4.258365032282028]
グラフアテンションネットワーク(GAT)と対照的な学習目標を統合することにより、構造化文書理解(DU)に言語に依存しないフレームワークを提案する。
本稿では、幾何学的エッジ特徴と視覚的特徴を組み合わせた2段階のGATベースのフレームワークを提案する。
この結果から,FUNSDデータセット内の鍵値関係を形式として同定し,RVLCDIPビジネス請求書の表構造レイアウトにおける空間的関係を見出した。
論文 参考訳(メタデータ) (2024-05-06T01:40:20Z) - mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding [100.17063271791528]
MLLMの性能向上を目的とした統一構造学習を提案する。
我々のモデルDocOwl 1.5は、10のビジュアル文書理解ベンチマーク上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-19T16:48:40Z) - StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.540122964399046]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。
本稿では,SrucTexTという統合フレームワークを提案する。
セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T02:57:07Z) - An Extensible Dashboard Architecture For Visualizing Base And Analyzed
Data [2.169919643934826]
本稿では,解析データだけでなく,基盤の可視化にも着目する。
本稿では,ユーザインタラクション,ビジュアライゼーション管理,およびベースデータの複雑な解析を行うためのダッシュボードのモジュラーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-09T19:45:43Z) - VSR: A Unified Framework for Document Layout Analysis combining Vision,
Semantics and Relations [40.721146438291335]
視覚、意味論、関係性を組み合わせた文書レイアウト解析のための統一フレームワークVSRを提案する。
人気のある3つのベンチマークでは、vsrは以前のモデルを大きく上回っている。
論文 参考訳(メタデータ) (2021-05-13T12:20:30Z) - Multi-Aspect Sentiment Analysis with Latent Sentiment-Aspect Attribution [7.289918297809611]
感傷的帰属モジュール(SAAM)と呼ばれる新しいフレームワークを導入する。
このフレームワークは文レベルの埋め込み特徴と文書レベルのアスペクトレーティングスコアのバリエーションの相関を利用して動作する。
ホテルレビューデータセットとビールレビューデータセットの実験では、SAAMは感情分析性能を向上させることが示されている。
論文 参考訳(メタデータ) (2020-12-15T16:34:36Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。