Fugu-MT 論文翻訳(概要): Capturing Logical Structure of Visually Structured Documents with Multimodal Transition Parser

論文の概要: Capturing Logical Structure of Visually Structured Documents with Multimodal Transition Parser

arxiv url: http://arxiv.org/abs/2105.00150v1
Date: Sat, 1 May 2021 02:33:50 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-05 12:37:46.196256
Title: Capturing Logical Structure of Visually Structured Documents with Multimodal Transition Parser
Title（参考訳）: マルチモーダルトランジションパーザを用いた視覚構造文書の論理構造把握
Authors: Yuta Koreeda, Christopher D. Manning
Abstract要約: フラグメントを木にマップするテキストフラグメント間の遷移ラベルの予測として,タスクの定式化を提案する。視覚,テキスト,意味を融合した特徴ベース機械学習システムを開発した。本システムでは,F1スコア0.739のPDF-to-textツールよりも有意に優れた段落境界検出F1スコア0.951を得た。
参考スコア（独自算出の注目度）: 39.75232199445175
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While many NLP papers, tasks and pipelines assume raw, clean texts, many texts we encounter in the wild are not so clean, with many of them being visually structured documents (VSDs) such as PDFs. Conventional preprocessing tools for VSDs mainly focused on word segmentation and coarse layout analysis, while fine-grained logical structure analysis (such as identifying paragraph boundaries and their hierarchies) of VSDs is underexplored. To that end, we proposed to formulate the task as prediction of transition labels between text fragments that maps the fragments to a tree, and developed a feature-based machine learning system that fuses visual, textual and semantic cues. Our system significantly outperformed baselines in identifying different structures in VSDs. For example, our system obtained a paragraph boundary detection F1 score of 0.951 which is significantly better than a popular PDF-to-text tool with a F1 score of 0.739.
Abstract（参考訳）: 多くのnlp文書、タスク、パイプラインは生のクリーンテキストを想定しているが、私たちが野生で遭遇する多くのテキストはそれほどクリーンではなく、その多くはpdfのような視覚的構造化ドキュメント(vsd)である。 VSDの従来の前処理ツールは主に単語分割と粗いレイアウト解析に重点を置いているが、VSDの詳細な論理構造解析(段落境界や階層の識別など)は過小評価されている。そこで我々は,断片を木にマッピングするテキストフラグメント間の遷移ラベルの予測としてタスクを定式化し,視覚的,テキスト的,セマンティックなキューを融合する特徴ベース機械学習システムを開発した。我々のシステムはVSDの異なる構造を識別する上で、ベースラインを著しく上回った。例えば,F1スコアが0.739のPDF-to-textツールよりも有意に優れた段落境界検出F1スコアの0.951を得た。

関連論文リスト

MoDora: Tree-Based Semi-Structured Document Analysis System [62.01015188258797]
半構造化文書は、様々な不規則なレイアウトで配置された様々なインターリーブされたデータ要素を統合する。 MoDora は半構造化文書解析のための LLM を利用したシステムである。実験では、MoDoraは5.97%-61.07%の精度でベースラインを上回っている。
論文参考訳（メタデータ） (2026-02-26T14:48:49Z)
DeepRead: Document Structure-Aware Reasoning to Enhance Agentic Search [23.447631421934847]
DeepReadは、ドキュメントネイティブな構造的事前を動作可能な推論機能に運用するために設計された、構造対応のドキュメント推論エージェントである。 DeepReadは、従来の検索手法に固有のコンテキストの断片化を効果的に軽減する、人間のような位置読み取りの推論パラダイムを提供する。
論文参考訳（メタデータ） (2026-02-04T20:03:28Z)
PromotionGo at SemEval-2025 Task 11: A Feature-Centric Framework for Cross-Lingual Multi-Emotion Detection in Short Texts [1.210852962855694]
本稿では,SemEval 2025 Task 11: Bridging the Gap in Text-based Emotion Detectionについて述べる。本稿では,文書表現と学習アルゴリズムを動的に適用し,言語固有の性能を最適化する機能中心フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-11T11:21:18Z)
Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文参考訳（メタデータ） (2025-06-19T07:16:18Z)
OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文参考訳（メタデータ） (2025-02-22T09:32:01Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文参考訳（メタデータ） (2024-05-13T05:48:35Z)
From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。また,高効率な階層分割モデルMiniSegを導入する。
論文参考訳（メタデータ） (2024-02-27T15:59:37Z)
Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis [52.01356859448068]
HTSは画像中のテキストを認識し、文字、単語、行、段落の4段階の階層構造を識別することができる。 HTSは、複数の単語レベルのテキストスポッティングベンチマークデータセットと幾何学的レイアウト解析タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2023-10-25T22:23:54Z)
DSG: An End-to-End Document Structure Generator [32.040520771901996]
Document Structure Generator (DSG) は、完全にエンドツーエンドのトレーニングが可能な文書解析のための新しいシステムである。我々のDSGは商用のOCRツールよりも優れており、その上最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2023-10-13T14:03:01Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis [6.155943751502232]
本稿では,言語に依存しないグラフニューラルネットワーク(GNN)モデルを提案する。我々のモデルは産業アプリケーション、特に多言語シナリオに適しています。
論文参考訳（メタデータ） (2023-04-24T03:54:48Z)
VTLayout: Fusion of Visual and Text Features for Document Layout Analysis [5.836306027133707]
文書レイアウト分析(DLA)は、歴史文書や科学文書の豊富な情報を大規模に収集する可能性がある。本稿では,文書の深い視覚的,浅い視覚的,テキスト的特徴を融合させ,カテゴリブロックを識別するVTモデルを提案する。 VTの識別能力はPubLayNetデータセットに基づく最も高度なDLA法よりも優れており、F1スコアは0.9599である。
論文参考訳（メタデータ） (2021-08-12T17:12:11Z)
StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.540122964399046]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。本稿では,SrucTexTという統合フレームワークを提案する。セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文参考訳（メタデータ） (2021-08-06T02:57:07Z)
Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文参考訳（メタデータ） (2020-12-07T12:09:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。