論文の概要: A Graphical Approach to Document Layout Analysis
- arxiv url: http://arxiv.org/abs/2308.02051v1
- Date: Thu, 3 Aug 2023 21:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-07 14:32:29.695025
- Title: A Graphical Approach to Document Layout Analysis
- Title(参考訳): 文書レイアウト解析へのグラフ的アプローチ
- Authors: Jilin Wang, Michael Krumdick, Baojia Tong, Hamima Halim, Maxim
Sokolov, Vadym Barda, Delphine Vendryes, and Chris Tanner
- Abstract要約: 文書レイアウト分析 (Document layout analysis, DLA) は、文書内の別個の意味的内容を検出するタスクである。
既存の最先端(SOTA)のDLAモデルは、ドキュメントをイメージとして表現し、電子的に生成されたPDFで利用可能な豊富なメタデータを捨てる。
本稿では,グラフベースレイアウト解析モデル(GLAM)を紹介する。
- 参考スコア(独自算出の注目度): 2.5108258530670606
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Document layout analysis (DLA) is the task of detecting the distinct,
semantic content within a document and correctly classifying these items into
an appropriate category (e.g., text, title, figure). DLA pipelines enable users
to convert documents into structured machine-readable formats that can then be
used for many useful downstream tasks. Most existing state-of-the-art (SOTA)
DLA models represent documents as images, discarding the rich metadata
available in electronically generated PDFs. Directly leveraging this metadata,
we represent each PDF page as a structured graph and frame the DLA problem as a
graph segmentation and classification problem. We introduce the Graph-based
Layout Analysis Model (GLAM), a lightweight graph neural network competitive
with SOTA models on two challenging DLA datasets - while being an order of
magnitude smaller than existing models. In particular, the 4-million parameter
GLAM model outperforms the leading 140M+ parameter computer vision-based model
on 5 of the 11 classes on the DocLayNet dataset. A simple ensemble of these two
models achieves a new state-of-the-art on DocLayNet, increasing mAP from 76.8
to 80.8. Overall, GLAM is over 5 times more efficient than SOTA models, making
GLAM a favorable engineering choice for DLA tasks.
- Abstract(参考訳): 文書レイアウト分析(DLA、Document layout analysis)は、文書内の別個の意味的内容を検出し、これらの項目を適切なカテゴリ(テキスト、タイトル、図形など)に正しく分類するタスクである。
DLAパイプラインでは、ドキュメントを構造化された機械可読フォーマットに変換して、多くの有用な下流タスクに使用することができる。
既存の最先端(SOTA)DLAモデルは、ドキュメントをイメージとして表現し、電子的に生成されたPDFで利用可能な豊富なメタデータを捨てる。
このメタデータを直接利用して、各PDFページを構造化グラフとして表現し、DLA問題をグラフセグメンテーションと分類問題としてフレーム化する。
本稿では,2つのdlaデータセット上でsomaモデルと競合する軽量グラフニューラルネットワークであるglam(graph-based layout analysis model)について紹介する。
特に、400万のパラメータGLAMモデルは、DocLayNetデータセット上の11クラスの5つの主要な140M以上のパラメータコンピュータビジョンベースモデルよりも優れています。
これら2つのモデルの単純なアンサンブルはDocLayNetの新しい最先端を実現し、mAPは76.8から80.8に増加した。
全体的に、GLAMはSOTAモデルより5倍効率が良いため、DLAタスクにおいてGLAMが好ましいエンジニアリング選択となる。
関連論文リスト
- LLaGA: Large Language and Graph Assistant [79.09010152231164]
大規模言語とグラフアシスタント(LLaGA)は、グラフ構造化データの複雑さを扱う革新的なモデルである。
LLaGAは汎用性、一般化性、解釈性に優れており、異なるデータセットやタスク間で一貫して動作する。
実験の結果,LLaGAは4つのデータセットと3つのタスクに1つの単一モデルを用いて優れた性能を提供することがわかった。
論文 参考訳(メタデータ) (2024-02-13T02:03:26Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Vision Grid Transformer for Document Layout Analysis [26.62857594455592]
本稿では、2Dトークンレベルおよびセグメントレベルのセマンティック理解のために、Grid Transformer (GiT) が提案され、事前訓練された2ストリームビジョングリッドトランスフォーマであるVGTを提案する。
実験結果から,提案したVGTモデルにより,文書レイアウト解析タスクにおける新たな最先端結果が得られることが示された。
論文 参考訳(メタデータ) (2023-08-29T02:09:56Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - Text Representation Enrichment Utilizing Graph based Approaches: Stock
Market Technical Analysis Case Study [0.0]
本稿では,教師なしノード表現学習モデルとノード分類/エッジ予測モデルを組み合わせたトランスダクティブハイブリッド手法を提案する。
提案手法は,この分野における最初の研究である株式市場の技術分析報告を分類するために開発された。
論文 参考訳(メタデータ) (2022-11-29T11:26:08Z) - A Robust Stacking Framework for Training Deep Graph Models with
Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。
IID(non-graph)データをGNNに簡単に組み込むことはできない。
本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:46:33Z) - DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis [2.9923891863939938]
文書レイアウト解析は高品質なPDF文書変換の鍵となる要件である。
ディープラーニングモデルは、レイアウトの検出とセグメンテーションに非常に効果的であることが証明されている。
textitDocLayNetは、新たに公開され、ドキュメント-アノテーションデータセットである。
論文 参考訳(メタデータ) (2022-06-02T14:25:12Z) - Document Layout Analysis via Dynamic Residual Feature Fusion [10.670880187577778]
文書レイアウト分析(DLA)は、文書イメージを異なる関心領域に分割し、各領域の役割を理解することを目的としている。
トレーニングデータは非常に限られており、効率的なモデルがないため、DLAシステムを構築するのは困難です。
DLAタスクに対して,DRFN(Dynamic Residual Fusion Network)と呼ばれるエンドツーエンドの統合ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-07T02:57:09Z) - Model-Agnostic Graph Regularization for Few-Shot Learning [60.64531995451357]
グラフ組み込み数ショット学習に関する包括的な研究を紹介します。
本稿では,ラベル間のグラフ情報の組み込みによる影響をより深く理解できるグラフ正規化手法を提案する。
提案手法は,Mini-ImageNetで最大2%,ImageNet-FSで6.7%の性能向上を実現する。
論文 参考訳(メタデータ) (2021-02-14T05:28:13Z) - Revisiting Graph based Collaborative Filtering: A Linear Residual Graph
Convolutional Network Approach [55.44107800525776]
グラフ畳み込みネットワーク(GCN)は、最先端のグラフベースの表現学習モデルである。
本稿では、GCNベースの協調フィルタリング(CF)ベースのレコメンダシステム(RS)について再検討する。
単純なグラフ畳み込みネットワークの理論と整合して,非線形性を取り除くことで推奨性能が向上することを示す。
本稿では,ユーザ・イテム相互作用モデリングを用いたCF用に特別に設計された残差ネットワーク構造を提案する。
論文 参考訳(メタデータ) (2020-01-28T04:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。