論文の概要: ICDAR 2023 Competition on Robust Layout Segmentation in Corporate
Documents
- arxiv url: http://arxiv.org/abs/2305.14962v1
- Date: Wed, 24 May 2023 09:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:22:54.840320
- Title: ICDAR 2023 Competition on Robust Layout Segmentation in Corporate
Documents
- Title(参考訳): ICDAR 2023 企業文書におけるロバストレイアウトセグメンテーションの競争
- Authors: Christoph Auer, Ahmed Nassar, Maksym Lysak, Michele Dolfi, Nikolaos
Livathinos, Peter Staar
- Abstract要約: ICDARは、最先端の技術をベンチマークするコンペを主催する長い伝統がある。
以前のコンペティションよりもバーを上げるために、ハードコンペティションデータセットを設計し、トレーニング用の最近のDocLayNetデータセットを提案しました。
我々は,最近のコンピュータビジョンモデル,データ拡張戦略,アンサンブル手法の興味深い組み合わせを認識し,提案したタスクにおいて顕著な精度を実現する。
- 参考スコア(独自算出の注目度): 3.6700088931938835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transforming documents into machine-processable representations is a
challenging task due to their complex structures and variability in formats.
Recovering the layout structure and content from PDF files or scanned material
has remained a key problem for decades. ICDAR has a long tradition in hosting
competitions to benchmark the state-of-the-art and encourage the development of
novel solutions to document layout understanding. In this report, we present
the results of our \textit{ICDAR 2023 Competition on Robust Layout Segmentation
in Corporate Documents}, which posed the challenge to accurately segment the
page layout in a broad range of document styles and domains, including
corporate reports, technical literature and patents. To raise the bar over
previous competitions, we engineered a hard competition dataset and proposed
the recent DocLayNet dataset for training. We recorded 45 team registrations
and received official submissions from 21 teams. In the presented solutions, we
recognize interesting combinations of recent computer vision models, data
augmentation strategies and ensemble methods to achieve remarkable accuracy in
the task we posed. A clear trend towards adoption of vision-transformer based
methods is evident. The results demonstrate substantial progress towards
achieving robust and highly generalizing methods for document layout
understanding.
- Abstract(参考訳): ドキュメントを機械処理可能な表現に変換することは、複雑な構造と形式の変化のために難しい課題である。
レイアウト構造やコンテンツをpdfファイルやスキャンした資料から復元することは、数十年間、重要な問題だった。
ICDARは、最先端をベンチマークし、文書レイアウト理解のための新しいソリューションの開発を奨励するコンテストを主催する長い伝統がある。
本稿では,企業文書におけるロバストレイアウトセグメンテーションに関するコンペティションである \textit{icdar 2023 competition on robust layout segmentation in corporate documents} の結果を紹介する。
これまでのコンペティションを乗り越えるために、私たちはハードコンペティションデータセットを開発し、トレーニング用の最近のdoclaynetデータセットを提案しました。
私たちは45のチーム登録を記録し、21チームから公式の応募を受け取りました。
提案手法では,近年のコンピュータビジョンモデル,データ拡張戦略,アンサンブル手法の興味深い組み合わせを認識し,課題の精度を著しく向上する。
vision-transformerベースのメソッドの採用への明確な傾向は明らかです。
その結果,ドキュメントレイアウト理解のための堅牢かつ高一般化手法の実現に向けた大きな進歩が示された。
関連論文リスト
- Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。
文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。
本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文 参考訳(メタデータ) (2024-10-28T16:11:35Z) - DocSynthv2: A Practical Autoregressive Modeling for Document Generation [43.84027661517748]
本稿では, 単純で効果的な自己回帰構造モデルの開発を通じて, Doc Synthv2と呼ばれる新しい手法を提案する。
我々のモデルは、レイアウトとテキストの両方を統合する点で際立ったものであり、既存のレイアウト生成アプローチを超える一歩を踏み出している。
論文 参考訳(メタデータ) (2024-06-12T16:00:16Z) - EFaR 2023: Efficient Face Recognition Competition [51.77649060180531]
バイオメトリックス国際会議(IJCB 2023)における効率的な顔認識コンペティション(EFaR)の概要について述べる。
この競技会は6つの異なるチームから17の応募を受けた。
提案したソリューションは、様々なベンチマークで達成された検証精度の重み付けスコアと、浮動小数点演算数とモデルサイズによって与えられるデプロイ可能性に基づいてランク付けされる。
論文 参考訳(メタデータ) (2023-08-08T09:58:22Z) - ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich
Document Images [198.35937007558078]
大会は2022年12月30日に開かれ、2023年3月24日に閉幕した。
トラック1には35人の参加者と91人の有効な応募があり、トラック2には15人の参加者と26人の応募がある。
提案手法の性能によると, 複雑なシナリオやゼロショットシナリオにおいて, 期待される情報抽出性能にはまだ大きなギャップがあると考えられる。
論文 参考訳(メタデータ) (2023-06-05T22:20:52Z) - ICDAR 2023 Competition on Hierarchical Text Detection and Recognition [60.68100769639923]
このコンペティションは、テキストの検出と認識を共同で行うディープラーニングモデルとシステムの研究を促進することを目的としている。
提案するコンペティション組織の詳細について,タスク,データセット,評価,スケジュールなどを紹介する。
大会期間中(2023年1月2日から2023年4月1日まで)、20チーム以上から少なくとも50人が提案された2つのタスクで応募された。
論文 参考訳(メタデータ) (2023-05-16T18:56:12Z) - WeLayout: WeChat Layout Analysis System for the ICDAR 2023 Competition
on Robust Layout Segmentation in Corporate Documents [42.1096906112963]
企業文書のレイアウトを分割する新しいシステムWeimatを紹介する。
本手法はベースラインをはるかに上回り,mAPは70.0。
論文 参考訳(メタデータ) (2023-05-11T04:05:30Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - ICDAR 2021 Competition on Components Segmentation Task of Document
Photos [63.289361617237944]
3つの課題タスクが提案され、提供されたデータセット上で異なるセグメンテーションの割り当てが実行される。
収集されたデータはブラジルのいくつかのID文書のもので、その個人情報は便利に交換された。
さまざまなディープラーニングモデルが、各タスクで最高の結果を得るために、さまざまな戦略を持つ参加者によって適用されました。
論文 参考訳(メタデータ) (2021-06-16T00:49:58Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。