Fugu-MT 論文翻訳(概要): TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents

論文の概要: TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents

arxiv url: http://arxiv.org/abs/2207.06744v1
Date: Thu, 14 Jul 2022 08:52:07 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-15 13:30:47.098514
Title: TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents
Title（参考訳）: trie++: 視覚的にリッチな文書からエンドツーエンドの情報抽出へ
Authors: Zhanzhan Cheng, Peng Zhang, Can Li, Qiao Liang, Yunlu Xu, Pengfei Li, Shiliang Pu, Yi Niu and Fei Wu
Abstract要約: 本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
参考スコア（独自算出の注目度）: 51.744527199305445
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recently, automatically extracting information from visually rich documents (e.g., tickets and resumes) has become a hot and vital research topic due to its widespread commercial value. Most existing methods divide this task into two subparts: the text reading part for obtaining the plain text from the original document images and the information extraction part for extracting key contents. These methods mainly focus on improving the second, while neglecting that the two parts are highly correlated. This paper proposes a unified end-to-end information extraction framework from visually rich documents, where text reading and information extraction can reinforce each other via a well-designed multi-modal context block. Specifically, the text reading part provides multi-modal features like visual, textual and layout features. The multi-modal context block is developed to fuse the generated multi-modal features and even the prior knowledge from the pre-trained language model for better semantic representation. The information extraction part is responsible for generating key contents with the fused context features. The framework can be trained in an end-to-end trainable manner, achieving global optimization. What is more, we define and group visually rich documents into four categories across two dimensions, the layout and text type. For each document category, we provide or recommend the corresponding benchmarks, experimental settings and strong baselines for remedying the problem that this research area lacks the uniform evaluation standard. Extensive experiments on four kinds of benchmarks (from fixed layout to variable layout, from full-structured text to semi-unstructured text) are reported, demonstrating the proposed method's effectiveness. Data, source code and models are available.
Abstract（参考訳）: 近年,視覚的に豊かな資料(チケットや履歴書など)から情報を自動的に抽出することが,商品価値の広さからホットかつ重要な研究課題となっている。既存のほとんどの方法は、このタスクを、原文書画像からプレーンテキストを取得するテキスト読取部と、キーコンテンツを抽出する情報抽出部とに分割する。これらの手法は主に第2部の改善に焦点を合わせ、両部は高い相関関係にあることを無視する。本稿では,テキストの読み出しと情報抽出が高度に設計されたマルチモーダル・コンテクストブロックを介して相互に強化できる,視覚的にリッチな文書からのエンドツーエンド情報抽出フレームワークを提案する。具体的には、テキスト読み込み部は、ビジュアル、テキスト、レイアウト機能などのマルチモーダル機能を提供する。マルチモーダルコンテキストブロックは、生成されたマルチモーダル特徴と、事前訓練された言語モデルからの事前知識を融合させて、セマンティック表現を改善する。情報抽出部は、融合したコンテキスト特徴を有するキーコンテンツを生成する責任を負う。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバル最適化が実現できます。さらに、視覚的に豊かな文書を2次元の4つのカテゴリ、レイアウトとテキストタイプに分類し、グループ化する。各文書カテゴリについて、我々は、この研究領域が統一評価基準を欠いている問題を改善するための、対応するベンチマーク、実験的な設定、強力なベースラインを提示または推奨する。提案手法の有効性を実証し,4種類のベンチマーク(固定レイアウトから可変レイアウト,フル構造化テキストから半非構造化テキストまで)を概説した。データ、ソースコード、モデルが利用可能だ。

関連論文リスト

VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文参考訳（メタデータ） (2025-05-28T19:39:35Z)
Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文参考訳（メタデータ） (2025-04-30T14:19:29Z)
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents [7.358946120326249]
本稿では,テキスト抽出ツールである'Eclairについて紹介する。画像が与えられたら、"Eclairは、バウンディングボックスとその対応するセマンティッククラスとともに、読み順でフォーマットされたテキストを抽出できる。このベンチマークで'Eclair'は最先端の精度を達成し、主要なメトリクスで他のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-02-06T17:07:22Z)
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究はMMDocIRと呼ばれる新しいベンチマークを導入し、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含んでいる。 MMDocIRベンチマークは,1,685問の注釈付きラベルと173,843問の自己ストラップ付きラベルを備えた,豊富なデータセットで構成されている。
論文参考訳（メタデータ） (2025-01-15T14:30:13Z)
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文参考訳（メタデータ） (2024-10-28T16:11:35Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
Multi-Review Fusion-in-Context [20.681734117825822]
接地テキスト生成には、コンテンツ選択とコンテンツ統合の両方が必要である。最近の研究で、各ステップごとに別々のコンポーネントを持つモジュラーアプローチが提案されている。本研究は,マルチドキュメント・セッティングにおけるモジュール・テキスト・ジェネレーションのさらなる探求の基盤となるものである。
論文参考訳（メタデータ） (2024-03-22T17:06:05Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Layout-Aware Information Extraction for Document-Grounded Dialogue: Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。 LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文参考訳（メタデータ） (2022-07-14T07:59:45Z)
Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。 VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文参考訳（メタデータ） (2021-01-24T11:05:24Z)
TRIE: End-to-End Text Reading and Information Extraction for Document Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2020-05-27T01:47:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。