論文の概要: VRD-IU: Lessons from Visually Rich Document Intelligence and Understanding
- arxiv url: http://arxiv.org/abs/2506.01388v1
- Date: Mon, 02 Jun 2025 07:28:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.285832
- Title: VRD-IU: Lessons from Visually Rich Document Intelligence and Understanding
- Title(参考訳): VRD-IU:ビジュアルにリッチなドキュメントインテリジェンスと理解から学んだこと
- Authors: Yihao Ding, Soyeon Caren Han, Yan Li, Josiah Poon,
- Abstract要約: Visually Rich Document Understanding (VRDU)は、文書インテリジェンスにおいて重要な分野として登場した。
フォームライクなドキュメントは、複雑なレイアウト、マルチステークホルダーの関与、高い構造的多様性のために、ユニークな課題を提起します。
VRD-IUコンペティション(VRD-IUコンペティション)は、マルチフォーマットフォームからキー情報を抽出し、ローカライズすることに焦点を当てている。
- 参考スコア(独自算出の注目度): 11.588271855615556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visually Rich Document Understanding (VRDU) has emerged as a critical field in document intelligence, enabling automated extraction of key information from complex documents across domains such as medical, financial, and educational applications. However, form-like documents pose unique challenges due to their complex layouts, multi-stakeholder involvement, and high structural variability. Addressing these issues, the VRD-IU Competition was introduced, focusing on extracting and localizing key information from multi-format forms within the Form-NLU dataset, which includes digital, printed, and handwritten documents. This paper presents insights from the competition, which featured two tracks: Track A, emphasizing entity-based key information retrieval, and Track B, targeting end-to-end key information localization from raw document images. With over 20 participating teams, the competition showcased various state-of-the-art methodologies, including hierarchical decomposition, transformer-based retrieval, multimodal feature fusion, and advanced object detection techniques. The top-performing models set new benchmarks in VRDU, providing valuable insights into document intelligence.
- Abstract(参考訳): Visually Rich Document Understanding (VRDU)は、ドキュメントインテリジェンスにおいて重要な分野として現れており、医療、金融、教育などの分野にわたる複雑なドキュメントから重要な情報を自動抽出することを可能にする。
しかし、フォームライクなドキュメントは、複雑なレイアウト、マルチステークホルダーの関与、高い構造的多様性のために、ユニークな課題を生んでいる。
これらの問題に対処するため、VRD-IUコンペティションが導入され、デジタル、印刷、手書き文書を含むForm-NLUデータセット内の複数フォーマットフォームからキー情報を抽出し、ローカライズすることに焦点を当てた。
本稿では,文書画像からエンド・ツー・エンドの鍵情報のローカライゼーションをターゲットとした,エンティティベースの鍵情報検索を重視したトラックAとトラックBの2つのトラックを特徴とするコンペからの洞察を述べる。
20以上の参加チームが参加し、階層的な分解、トランスフォーマーベースの検索、マルチモーダル機能融合、高度なオブジェクト検出技術など、最先端の方法論を紹介した。
最高パフォーマンスのモデルは新しいベンチマークをVRDUに設定し、ドキュメントインテリジェンスに関する貴重な洞察を提供した。
関連論文リスト
- Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [24.62245834301022]
文書解析は、構造化されていない半構造化された文書を構造化された機械可読データに変換するのに不可欠である。
本調査では,文書解析の現状を概観する。
モジュラーパイプラインシステムから、大規模なビジョン言語モデルによって駆動されるエンドツーエンドモデルまで、主要な方法論をカバーする。
論文 参考訳(メタデータ) (2024-10-28T16:11:35Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - PDF-MVQA: A Dataset for Multimodal Information Retrieval in PDF-based Visual Question Answering [13.625303311724757]
文書質問回答(QA)は、視覚に富む文書(VRD)を理解する上での課題を提示する
我々は,複数のページとマルチモーダル情報検索を含む研究雑誌記事に適したPDF-MVQAを提案する。
論文 参考訳(メタデータ) (2024-04-19T09:00:05Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。