論文の概要: Document AI: A Comparative Study of Transformer-Based, Graph-Based
Models, and Convolutional Neural Networks For Document Layout Analysis
- arxiv url: http://arxiv.org/abs/2308.15517v1
- Date: Tue, 29 Aug 2023 16:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 16:06:29.814476
- Title: Document AI: A Comparative Study of Transformer-Based, Graph-Based
Models, and Convolutional Neural Networks For Document Layout Analysis
- Title(参考訳): Document AI: ドキュメントレイアウト分析のためのトランスフォーマーベースのグラフベースモデルと畳み込みニューラルネットワークの比較研究
- Authors: Sotirios Kastanas, Shaomu Tan, Yi He
- Abstract要約: Document AIは、自然言語処理とコンピュータビジョン技術を活用して、文書を自動的に分析することを目的としている。
Document AIの主要なタスクの1つはドキュメントレイアウト分析であり、レイアウト、画像、テキストの内容と空間的関係を解釈することでドキュメントページを構造化する。
- 参考スコア(独自算出の注目度): 3.231170156689185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document AI aims to automatically analyze documents by leveraging natural
language processing and computer vision techniques. One of the major tasks of
Document AI is document layout analysis, which structures document pages by
interpreting the content and spatial relationships of layout, image, and text.
This task can be image-centric, wherein the aim is to identify and label
various regions such as authors and paragraphs, or text-centric, where the
focus is on classifying individual words in a document. Although there are
increasingly sophisticated methods for improving layout analysis, doubts remain
about the extent to which their findings can be generalized to a broader
context. Specifically, prior work developed systems based on very different
architectures, such as transformer-based, graph-based, and CNNs. However, no
work has mentioned the effectiveness of these models in a comparative analysis.
Moreover, while language-independent Document AI models capable of knowledge
transfer have been developed, it remains to be investigated to what degree they
can effectively transfer knowledge. In this study, we aim to fill these gaps by
conducting a comparative evaluation of state-of-the-art models in document
layout analysis and investigating the potential of cross-lingual layout
analysis by utilizing machine translation techniques.
- Abstract(参考訳): document aiは、自然言語処理とコンピュータビジョン技術を活用して、ドキュメントを自動的に分析することを目指している。
document aiの主要なタスクの1つは、文書レイアウト分析であり、レイアウト、画像、テキストの内容および空間関係を解釈して文書ページを構造化する。
このタスクは、著者や段落などの様々な領域を識別し、ラベル付けすること、あるいは文書内の個々の単語を分類することに焦点を当てることである。
レイアウト解析を改善するための高度な手法はますますあるが、その発見がより広い文脈に一般化される程度に疑問が残る。
具体的には、トランスフォーマーベース、グラフベース、cnnなど、まったく異なるアーキテクチャに基づくシステムを開発した。
しかし、比較分析においてこれらのモデルの有効性について言及した研究はない。
また、知識伝達が可能な言語非依存の文書aiモデルが開発されているが、知識をどの程度効果的に転送できるかについては調査が続けられている。
本研究では,文書レイアウト解析における最先端モデルの比較評価を行い,機械翻訳技術を用いて言語間レイアウト解析の可能性を検討することにより,これらのギャップを埋めることを目的とする。
関連論文リスト
- Can AI Models Appreciate Document Aesthetics? An Exploration of Legibility and Layout Quality in Relation to Prediction Confidence [3.049887057143419]
十分に設計された文書は、その言葉だけでなく、その視覚的雄弁性を通してもコミュニケーションする。
著者は、色、フォント、グラフィック、レイアウトなどの美的要素を使って情報の知覚を形作る。
最先端のドキュメントAIモデルはレイアウトと画像データを組み込むことの利点を示しているが、文書美学のニュアンスを効果的に捉えているかどうかは不明だ。
論文 参考訳(メタデータ) (2024-03-27T01:21:48Z) - Transformers and Language Models in Form Understanding: A Comprehensive
Review of Scanned Document Analysis [16.86139440201837]
我々は、スキャンされた文書の文脈におけるフォーム理解のトピックに焦点を当てる。
我々の研究手法は、人気文書の詳細な分析と過去10年間のトレンドの理解の形式に関するものである。
我々は、トランスフォーマーがいかにフィールドを前進させ、フォームアンダード技術に革命をもたらしたかを紹介する。
論文 参考訳(メタデータ) (2024-03-06T22:22:02Z) - U-DIADS-Bib: a full and few-shot pixel-precise dataset for document
layout analysis of ancient manuscripts [9.76730765089929]
U-DIADS-Bibは、コンピュータビジョンと人文科学の分野の専門家の密接なコラボレーションのために開発された、新しい、ピクセル精度、非重複性、ノイズレス文書レイアウト分析データセットである。
そこで我々は,手動アノテーションの時間的負担を軽減するために,新しい,コンピュータ支援型セグメンテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-16T15:11:18Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Automatic Image Content Extraction: Operationalizing Machine Learning in
Humanistic Photographic Studies of Large Visual Archives [81.88384269259706]
本稿では,機械学習による大規模画像アーカイブの検索と解析のための自動画像コンテンツ抽出フレームワークを提案する。
提案する枠組みは、人文科学と社会科学のいくつかの分野に適用できる。
論文 参考訳(メタデータ) (2022-04-05T12:19:24Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Document AI: Benchmarks, Models and Applications [35.46858492311289]
ドキュメントAI(Document AI)とは、ビジネス文書を自動的に読み、理解し、分析する技術である。
近年、ディープラーニング技術の人気は、Document AIの開発を大きく進めている。
本稿では,代表モデル,タスク,ベンチマークデータセットについて概説する。
論文 参考訳(メタデータ) (2021-11-16T16:43:07Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Neural Deepfake Detection with Factual Structure of Text [78.30080218908849]
テキストのディープフェイク検出のためのグラフベースモデルを提案する。
我々のアプローチは、ある文書の事実構造をエンティティグラフとして表現する。
本モデルでは,機械生成テキストと人文テキストの事実構造の違いを識別することができる。
論文 参考訳(メタデータ) (2020-10-15T02:35:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。