論文の概要: A Graphical Approach to Document Layout Analysis
- arxiv url: http://arxiv.org/abs/2308.02051v1
- Date: Thu, 3 Aug 2023 21:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 14:32:29.695025
- Title: A Graphical Approach to Document Layout Analysis
- Title(参考訳): 文書レイアウト解析へのグラフ的アプローチ
- Authors: Jilin Wang, Michael Krumdick, Baojia Tong, Hamima Halim, Maxim
Sokolov, Vadym Barda, Delphine Vendryes, and Chris Tanner
- Abstract要約: 文書レイアウト分析 (Document layout analysis, DLA) は、文書内の別個の意味的内容を検出するタスクである。
既存の最先端(SOTA)のDLAモデルは、ドキュメントをイメージとして表現し、電子的に生成されたPDFで利用可能な豊富なメタデータを捨てる。
本稿では,グラフベースレイアウト解析モデル(GLAM)を紹介する。
- 参考スコア(独自算出の注目度): 2.5108258530670606
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Document layout analysis (DLA) is the task of detecting the distinct,
semantic content within a document and correctly classifying these items into
an appropriate category (e.g., text, title, figure). DLA pipelines enable users
to convert documents into structured machine-readable formats that can then be
used for many useful downstream tasks. Most existing state-of-the-art (SOTA)
DLA models represent documents as images, discarding the rich metadata
available in electronically generated PDFs. Directly leveraging this metadata,
we represent each PDF page as a structured graph and frame the DLA problem as a
graph segmentation and classification problem. We introduce the Graph-based
Layout Analysis Model (GLAM), a lightweight graph neural network competitive
with SOTA models on two challenging DLA datasets - while being an order of
magnitude smaller than existing models. In particular, the 4-million parameter
GLAM model outperforms the leading 140M+ parameter computer vision-based model
on 5 of the 11 classes on the DocLayNet dataset. A simple ensemble of these two
models achieves a new state-of-the-art on DocLayNet, increasing mAP from 76.8
to 80.8. Overall, GLAM is over 5 times more efficient than SOTA models, making
GLAM a favorable engineering choice for DLA tasks.
- Abstract(参考訳): 文書レイアウト分析(DLA、Document layout analysis)は、文書内の別個の意味的内容を検出し、これらの項目を適切なカテゴリ(テキスト、タイトル、図形など)に正しく分類するタスクである。
DLAパイプラインでは、ドキュメントを構造化された機械可読フォーマットに変換して、多くの有用な下流タスクに使用することができる。
既存の最先端(SOTA)DLAモデルは、ドキュメントをイメージとして表現し、電子的に生成されたPDFで利用可能な豊富なメタデータを捨てる。
このメタデータを直接利用して、各PDFページを構造化グラフとして表現し、DLA問題をグラフセグメンテーションと分類問題としてフレーム化する。
本稿では,2つのdlaデータセット上でsomaモデルと競合する軽量グラフニューラルネットワークであるglam(graph-based layout analysis model)について紹介する。
特に、400万のパラメータGLAMモデルは、DocLayNetデータセット上の11クラスの5つの主要な140M以上のパラメータコンピュータビジョンベースモデルよりも優れています。
これら2つのモデルの単純なアンサンブルはDocLayNetの新しい最先端を実現し、mAPは76.8から80.8に増加した。
全体的に、GLAMはSOTAモデルより5倍効率が良いため、DLAタスクにおいてGLAMが好ましいエンジニアリング選択となる。
関連論文リスト
- Scalable Weibull Graph Attention Autoencoder for Modeling Document Networks [50.42343781348247]
解析条件後部を解析し,推論精度を向上させるグラフポアソン因子分析法(GPFA)を開発した。
また,GPFAを多層構造に拡張したグラフPoisson gamma belief Network (GPGBN) を用いて,階層的な文書関係を複数の意味レベルで捉える。
本モデルでは,高品質な階層型文書表現を抽出し,様々なグラフ解析タスクにおいて有望な性能を実現する。
論文 参考訳(メタデータ) (2024-10-13T02:22:14Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models [90.98855064914379]
グラフを処理するために,大規模言語モデル(LLM)のベンチマークであるProGraphを導入する。
その結果,現在のLCMの性能は不満足であり,最高のモデルでは36%の精度しか達成できないことがわかった。
本研究では,6つの広く使用されているグラフライブラリに基づいて,クローリングされたドキュメントと自動生成コードを含むLLM4Graphデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-29T11:38:45Z) - Large Generative Graph Models [74.58859158271169]
大規模グラフ生成モデル(LGGM)と呼ばれる新しいグラフ生成モデルを提案する。
事前訓練されたLGGMは、既存のグラフ生成モデルよりもゼロショット生成能力が優れている。
LGGMは、ターゲットドメインからのグラフで簡単に微調整でき、スクラッチから直接トレーニングされたグラフよりも、さらに優れたパフォーマンスを示すことができる。
論文 参考訳(メタデータ) (2024-06-07T17:41:47Z) - LLaGA: Large Language and Graph Assistant [73.71990472543027]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。
LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。
実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-13T02:03:26Z) - Vision Grid Transformer for Document Layout Analysis [26.62857594455592]
本稿では、2Dトークンレベルおよびセグメントレベルのセマンティック理解のために、Grid Transformer (GiT) が提案され、事前訓練された2ストリームビジョングリッドトランスフォーマであるVGTを提案する。
実験結果から,提案したVGTモデルにより,文書レイアウト解析タスクにおける新たな最先端結果が得られることが示された。
論文 参考訳(メタデータ) (2023-08-29T02:09:56Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - Text Representation Enrichment Utilizing Graph based Approaches: Stock
Market Technical Analysis Case Study [0.0]
本稿では,教師なしノード表現学習モデルとノード分類/エッジ予測モデルを組み合わせたトランスダクティブハイブリッド手法を提案する。
提案手法は,この分野における最初の研究である株式市場の技術分析報告を分類するために開発された。
論文 参考訳(メタデータ) (2022-11-29T11:26:08Z) - DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis [2.9923891863939938]
文書レイアウト解析は高品質なPDF文書変換の鍵となる要件である。
ディープラーニングモデルは、レイアウトの検出とセグメンテーションに非常に効果的であることが証明されている。
textitDocLayNetは、新たに公開され、ドキュメント-アノテーションデータセットである。
論文 参考訳(メタデータ) (2022-06-02T14:25:12Z) - Document Layout Analysis via Dynamic Residual Feature Fusion [10.670880187577778]
文書レイアウト分析(DLA)は、文書イメージを異なる関心領域に分割し、各領域の役割を理解することを目的としている。
トレーニングデータは非常に限られており、効率的なモデルがないため、DLAシステムを構築するのは困難です。
DLAタスクに対して,DRFN(Dynamic Residual Fusion Network)と呼ばれるエンドツーエンドの統合ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-07T02:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。