Fugu-MT 論文翻訳(概要): Multimodal Tree Decoder for Table of Contents Extraction in Document Images

論文の概要: Multimodal Tree Decoder for Table of Contents Extraction in Document Images

arxiv url: http://arxiv.org/abs/2212.02896v1
Date: Tue, 6 Dec 2022 11:38:31 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-07 15:47:55.319263
Title: Multimodal Tree Decoder for Table of Contents Extraction in Document Images
Title（参考訳）: 文書画像中の内容のテーブル抽出のためのマルチモーダルツリーデコーダ
Authors: Pengfei Hu, Zhenrong Zhang, Jianshu Zhang, Jun Du, Jiajia Wu
Abstract要約: テーブル・オブ・コンテント(ToC)抽出は、文書の様々なレベルの見出しを抽出し、内容のアウトラインをよりよく理解することを目的としている。まず,学術論文の650件の資料とコンテンツラベルによるイメージサンプルを含む,標準データセットであるHierDocを紹介した。本稿では,ToCのマルチモーダルツリーデコーダ(MTD)をHierDocのベンチマークとして用いた新しいエンドツーエンドモデルを提案する。
参考スコア（独自算出の注目度）: 32.46909366312659
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Table of contents (ToC) extraction aims to extract headings of different levels in documents to better understand the outline of the contents, which can be widely used for document understanding and information retrieval. Existing works often use hand-crafted features and predefined rule-based functions to detect headings and resolve the hierarchical relationship between headings. Both the benchmark and research based on deep learning are still limited. Accordingly, in this paper, we first introduce a standard dataset, HierDoc, including image samples from 650 documents of scientific papers with their content labels. Then we propose a novel end-to-end model by using the multimodal tree decoder (MTD) for ToC as a benchmark for HierDoc. The MTD model is mainly composed of three parts, namely encoder, classifier, and decoder. The encoder fuses the multimodality features of vision, text, and layout information for each entity of the document. Then the classifier recognizes and selects the heading entities. Next, to parse the hierarchical relationship between the heading entities, a tree-structured decoder is designed. To evaluate the performance, both the metric of tree-edit-distance similarity (TEDS) and F1-Measure are adopted. Finally, our MTD approach achieves an average TEDS of 87.2% and an average F1-Measure of 88.1% on the test set of HierDoc. The code and dataset will be released at: https://github.com/Pengfei-Hu/MTD.
Abstract（参考訳）: コンテンツ表(toc)抽出は、文書の理解や情報検索に広く使用できる内容の概要をよりよく理解するために、文書の異なるレベルの見出しを抽出することを目的としている。既存の作品では、しばしば手作りの特徴とあらかじめ定義された規則に基づく関数を使用して、方向を検出し、方向の間の階層的関係を解決する。ディープラーニングに基づくベンチマークと研究は、いずれもまだ限られている。そこで本稿では,まず,学術論文の650件の資料とコンテンツラベルのイメージサンプルを含む,標準データセットであるHierDocを紹介する。そして,ToC のマルチモーダルツリーデコーダ (MTD) を HierDoc のベンチマークとして用いた新しいエンドツーエンドモデルを提案する。 MTDモデルは、主にエンコーダ、分類器、デコーダの3つの部分で構成されている。エンコーダは、文書の各エンティティに対する視覚、テキスト、レイアウト情報の多モードな特徴を融合する。そして、分類器は、先頭エンティティを認識して選択する。次に、配向エンティティ間の階層的関係を解析するために、木構造デコーダを設計する。評価には, 樹枝距離類似度(TEDS)とF1-Measureの両方を用いる。最後に、我々のMTDアプローチでは、平均TEDSは87.2%、平均F1-Measureは88.1%である。コードとデータセットは、https://github.com/Pengfei-Hu/MTD.comでリリースされる。

関連論文リスト

MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。 MoDora は半構造化文書解析のための LLM を利用したシステムである。実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文参考訳（メタデータ） (2026-02-26T14:48:49Z)
DMAP: Human-Aligned Structural Document Map for Multimodal Document Understanding [30.54420648726099]
文書レベルの構造文書MAPは、階層的組織と多モード文書内の要素間関係の両方を符号化する。この表現に基づいて、リフレクティブ推論エージェントは構造認識およびエビデンス駆動推論を実行する。 MMDocQAベンチマークの実験では、DMAPが文書固有の構造表現を人間の解釈パターンと一致させることが示されている。
論文参考訳（メタデータ） (2026-01-26T06:38:25Z)
UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters [55.34921520578968]
視覚言語モデル(VLM)は、テキストと公式の統一的な認識を実現している。パラメータが0.1Bしか持たない統一認識モデルUniRec-0.1Bを提案する。文字、単語、行、段落、文書など、複数のレベルでテキストや公式の認識を行うことができる。
論文参考訳（メタデータ） (2025-12-24T10:35:21Z)
Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文参考訳（メタデータ） (2025-07-19T16:03:34Z)
DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning [39.10966524559436]
文書画像のセグメンテーションは、文書解析と認識に不可欠である。既存のメソッドはこれらのタスクを別々に処理し、その結果、一般化とリソースの浪費が制限される。本稿では,様々な文書画像セグメンテーションタスク用に設計されたトランスフォーマーベースの統合フレームワークであるDocSAMを紹介する。
論文参考訳（メタデータ） (2025-04-05T07:14:53Z)
ReTreever: Tree-based Coarse-to-Fine Representations for Retrieval [64.44265315244579]
そこで本研究では,様々なレベルで参照文書を整理し,表現するためのツリーベース手法を提案する。我々の手法はReTreeverと呼ばれ、クエリと参照ドキュメントが同様のツリーブランチに割り当てられるように、バイナリツリーの内部ノード毎のルーティング関数を共同で学習する。我々の評価では、ReTreeverは一般的に完全な表現精度を保っている。
論文参考訳（メタデータ） (2025-02-11T21:35:13Z)
MMDocIR: Benchmarking Multi-Modal Retrieval for Long Documents [26.39534684408116]
この研究はMMDocIRと呼ばれる新しいベンチマークを導入し、ページレベルとレイアウトレベルの検索という2つの異なるタスクを含んでいる。 MMDocIRベンチマークは,1,685問の注釈付きラベルと173,843問の自己ストラップ付きラベルを備えた,豊富なデータセットで構成されている。
論文参考訳（メタデータ） (2025-01-15T14:30:13Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文参考訳（メタデータ） (2024-06-17T06:27:35Z)
A Scalable Framework for Table of Contents Extraction from Complex ESG Annual Reports [19.669390380593843]
2001年から2022年までの563社から1093社のESG年次レポートをまとめた新しいデータセットESGDocを提案する。これらの報告は、その多様な構造と幅広い長さのために重大な課題を提起している。 3つのステップからなる新しいToc抽出フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-27T11:40:32Z)
Enhancing Document Information Analysis with Multi-Task Pre-training: A Robust Approach for Information Extraction in Visually-Rich Documents [8.49076413640561]
モデルは事前訓練され、その後、様々な文書画像解析タスクのために微調整される。提案されたモデルは、文書分類のためのRVL-CDIPデータセットで95.87%の精度で、すべてのタスクで印象的な結果を得た。
論文参考訳（メタデータ） (2023-10-25T10:22:30Z)
PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文参考訳（メタデータ） (2023-09-16T04:29:05Z)
HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of Document Structures [31.868926876151342]
本稿では,NLPおよびCVフィールドに適した新しいタスクとして,文書構造の階層的再構築を提案する。私たちは、2500のマルチページドキュメントと200万近いセマンティックユニットからなるHRDocという大規模なデータセットを構築しました。本稿では,この問題を解決するために,エンコーダデコーダに基づく階層型文書構造解析システム(DSPS)を提案する。
論文参考訳（メタデータ） (2023-03-24T07:23:56Z)
Lbl2Vec: An Embedding-Based Approach for Unsupervised Document Retrieval on Predefined Topics [0.6767885381740952]
本稿では,ラベルのない文書データセットから,文書と単語ベクトルを共同で学習する手法を提案する。提案手法はテキスト前処理をほとんど必要としないが,高い確率で関連文書の検索に有効である。当社のアプローチの複製を容易にするため,開発済みのLbl2Vecコードを3Clause BSDライセンスの下で利用可能なツールとして公開しています。
論文参考訳（メタデータ） (2022-10-12T08:57:01Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Minimally-Supervised Structure-Rich Text Categorization via Learning on Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文参考訳（メタデータ） (2021-02-23T04:14:34Z)
DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文参考訳（メタデータ） (2020-06-01T16:04:30Z)
Pairwise Multi-Class Document Classification for Semantic Relations between Wikipedia Articles [5.40541521227338]
2つの文書間の関係をペアワイズ文書分類タスクとして検索する問題をモデル化する。文書間の意味的関係を見つけるために,GloVe, paragraph-s,BERT,XLNetなどの一連の手法を適用する。我々は,新たに提案された32,168のウィキペディア記事ペアと,セマンティックドキュメントの関係を定義するウィキデータプロパティに関する実験を行った。
論文参考訳（メタデータ） (2020-03-22T12:52:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。