論文の概要: PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis
- arxiv url: http://arxiv.org/abs/2304.11810v1
- Date: Mon, 24 Apr 2023 03:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 16:18:07.510884
- Title: PARAGRAPH2GRAPH: A GNN-based framework for layout paragraph analysis
- Title(参考訳): PARAGRAPH2GRAPH:レイアウト段落解析のためのGNNベースのフレームワーク
- Authors: Shu Wei and Nuo Xu
- Abstract要約: 本稿では,言語に依存しないグラフニューラルネットワーク(GNN)モデルを提案する。
我々のモデルは産業アプリケーション、特に多言語シナリオに適しています。
- 参考スコア(独自算出の注目度): 6.155943751502232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document layout analysis has a wide range of requirements across various
domains, languages, and business scenarios. However, most current
state-of-the-art algorithms are language-dependent, with architectures that
rely on transformer encoders or language-specific text encoders, such as BERT,
for feature extraction. These approaches are limited in their ability to handle
very long documents due to input sequence length constraints and are closely
tied to language-specific tokenizers. Additionally, training a cross-language
text encoder can be challenging due to the lack of labeled multilingual
document datasets that consider privacy. Furthermore, some layout tasks require
a clean separation between different layout components without overlap, which
can be difficult for image segmentation-based algorithms to achieve. In this
paper, we present Paragraph2Graph, a language-independent graph neural network
(GNN)-based model that achieves competitive results on common document layout
datasets while being adaptable to business scenarios with strict separation.
With only 19.95 million parameters, our model is suitable for industrial
applications, particularly in multi-language scenarios.
- Abstract(参考訳): ドキュメントレイアウト分析は、さまざまなドメイン、言語、ビジネスシナリオに幅広い要件を持っています。
しかし、現在の最先端アルゴリズムのほとんどは言語に依存しており、機能抽出にはトランスフォーマエンコーダやbertなどの言語固有のテキストエンコーダに依存する。
これらのアプローチは、入力シーケンス長の制約により非常に長いドキュメントを扱う能力に制限されており、言語固有のトークン化器と密接に結びついている。
さらに、プライバシーを考慮したラベル付き多言語文書データセットがないため、言語間のテキストエンコーダのトレーニングが難しい場合がある。
さらに、いくつかのレイアウトタスクでは、オーバーラップなく異なるレイアウトコンポーネントをきれいに分離する必要があるため、画像分割ベースのアルゴリズムでは達成が困難である。
本稿では,言語に依存しないグラフニューラルネットワーク(gnn)ベースのモデルである paragraph2graph について述べる。
たった1995万のパラメータで、我々のモデルは産業アプリケーション、特に多言語シナリオに適している。
関連論文リスト
- GLDesigner: Leveraging Multi-Modal LLMs as Designer for Enhanced Aesthetic Text Glyph Layouts [53.568057283934714]
コンテンツ対応のテキストロゴレイアウトを生成するVLMベースのフレームワークを提案する。
本稿では,複数のグリフ画像の同時処理における計算量を削減するための2つのモデル手法を提案する。
アウトモデルのインストラクションチューニングを支援するために,既存の公開データセットよりも5倍大きい2つの拡張テキストロゴデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-18T10:04:10Z) - XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser [35.69888780388425]
本研究では, 単純だが効果的な textbfMultimodal と textbfMultilingual semi-structured textbfFORM textbfXForm フレームワークを提案する。
textbfXFormは、包括的な事前訓練された言語モデルに固定されており、革新的にエンティティ認識とリレーショナルREである。
本フレームワークは,マルチ言語およびゼロショットの両文脈において,タスク間の性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-05-27T16:37:17Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - Entry Separation using a Mixed Visual and Textual Language Model:
Application to 19th century French Trade Directories [18.323615434182553]
重要な課題は、ターゲットデータベースの基本的なテキスト領域を構成するものを正確に分割することである。
19世紀のフランス貿易ディレクトリーに効率性を示す新しい実用的アプローチを提案する。
NER目的に使用される言語モデルのトークンストリームに、特別なビジュアルトークン、例えばインデントやブレークといったコーディングを注入することで、テキストと視覚の両方の知識を同時に活用することができる。
論文 参考訳(メタデータ) (2023-02-17T15:30:44Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Scalable Cross-lingual Document Similarity through Language-specific
Concept Hierarchies [0.0]
本稿では,並列あるいは同等のコーパスを必要としない教師なし文書類似性アルゴリズムを提案する。
このアルゴリズムは、文書から自動的に作成されたトピックを多言語ラベルでアノテートします。
JCR-Acquis corporaの英語、スペイン語、フランス語版で実施された実験は、同様のコンテンツによる文書の分類と分類に関する有望な結果を明らかにします。
論文 参考訳(メタデータ) (2020-12-15T10:42:40Z) - A Multi-Perspective Architecture for Semantic Code Search [58.73778219645548]
テキストマッチングのための新しい多言語間ニューラルネットワークを提案する。
CoNaLaデータセットを用いた実験により,提案したモデルでは,従来の手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2020-05-06T04:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。