Fugu-MT 論文翻訳(概要): ICDAR 2021 Competition on Components Segmentation Task of Document Photos

論文の概要: ICDAR 2021 Competition on Components Segmentation Task of Document Photos

arxiv url: http://arxiv.org/abs/2106.08499v1
Date: Wed, 16 Jun 2021 00:49:58 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-17 17:44:38.108047
Title: ICDAR 2021 Competition on Components Segmentation Task of Document Photos
Title（参考訳）: ICDAR 2021 文書写真のコンポーネント分割作業に関するコンペティション
Authors: Celso A. M. Lopes Junior, Ricardo B. das Neves Junior, Byron L. D. Bezerra, Alejandro H. Toselli, Donato Impedovo
Abstract要約: 3つの課題タスクが提案され、提供されたデータセット上で異なるセグメンテーションの割り当てが実行される。収集されたデータはブラジルのいくつかのID文書のもので、その個人情報は便利に交換された。さまざまなディープラーニングモデルが、各タスクで最高の結果を得るために、さまざまな戦略を持つ参加者によって適用されました。
参考スコア（独自算出の注目度）: 63.289361617237944
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This paper describes the short-term competition on Components Segmentation Task of Document Photos that was prepared in the context of the 16th International Conference on Document Analysis and Recognition (ICDAR 2021). This competition aims to bring together researchers working on the filed of identification document image processing and provides them a suitable benchmark to compare their techniques on the component segmentation task of document images. Three challenge tasks were proposed entailing different segmentation assignments to be performed on a provided dataset. The collected data are from several types of Brazilian ID documents, whose personal information was conveniently replaced. There were 16 participants whose results obtained for some or all the three tasks show different rates for the adopted metrics, like Dice Similarity Coefficient ranging from 0.06 to 0.99. Different Deep Learning models were applied by the entrants with diverse strategies to achieve the best results in each of the tasks. Obtained results show that the current applied methods for solving one of the proposed tasks (document boundary detection) are already well stablished. However, for the other two challenge tasks (text zone and handwritten sign detection) research and development of more robust approaches are still required to achieve acceptable results.
Abstract（参考訳）: 本稿では,第16回文書解析・認識国際会議(ICDAR 2021)の文脈で作成された文書写真のコンポーネント分割タスクに関する短期的コンペについて述べる。このコンペティションは、識別文書画像処理の申請に携わる研究者を集め、文書画像の構成要素分割タスクにおいて、それらの技術を比較するのに適したベンチマークを提供する。提供されたデータセット上で実行される異なるセグメンテーション割り当てを含む3つの課題タスクが提案された。収集されたデータはブラジルのいくつかのID文書のもので、その個人情報は便利に交換された。参加者は16名で,3つのタスクのそれぞれについて,Dice similarity Coefficientが0.06から0.99まで,それぞれ異なるレートで評価された。それぞれのタスクで最高の結果を達成するために、さまざまな戦略を持つ参加者によって異なるディープラーニングモデルが適用された。その結果,提案する課題(文書境界検出)の解法がすでに十分に確立されていることがわかった。しかし、他の2つの課題(テキストゾーンと手書きサイン検出)に対して、より堅牢なアプローチの研究と開発は、受け入れられる結果を得るためには依然として必要である。

関連論文リスト

DocSAM: Unified Document Image Segmentation via Query Decomposition and Heterogeneous Mixed Learning [39.10966524559436]
文書画像のセグメンテーションは、文書解析と認識に不可欠である。既存のメソッドはこれらのタスクを別々に処理し、その結果、一般化とリソースの浪費が制限される。本稿では,様々な文書画像セグメンテーションタスク用に設計されたトランスフォーマーベースの統合フレームワークであるDocSAMを紹介する。
論文参考訳（メタデータ） (2025-04-05T07:14:53Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
On Task-personalized Multimodal Few-shot Learning for Visually-rich Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。 FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文参考訳（メタデータ） (2023-11-01T17:51:43Z)
Enhancing Document Information Analysis with Multi-Task Pre-training: A Robust Approach for Information Extraction in Visually-Rich Documents [8.49076413640561]
モデルは事前訓練され、その後、様々な文書画像解析タスクのために微調整される。提案されたモデルは、文書分類のためのRVL-CDIPデータセットで95.87%の精度で、すべてのタスクで印象的な結果を得た。
論文参考訳（メタデータ） (2023-10-25T10:22:30Z)
EFaR 2023: Efficient Face Recognition Competition [51.77649060180531]
バイオメトリックス国際会議(IJCB 2023)における効率的な顔認識コンペティション(EFaR)の概要について述べる。この競技会は6つの異なるチームから17の応募を受けた。提案したソリューションは、様々なベンチマークで達成された検証精度の重み付けスコアと、浮動小数点演算数とモデルサイズによって与えられるデプロイ可能性に基づいてランク付けされる。
論文参考訳（メタデータ） (2023-08-08T09:58:22Z)
ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich Document Images [198.35937007558078]
大会は2022年12月30日に開かれ、2023年3月24日に閉幕した。トラック1には35人の参加者と91人の有効な応募があり、トラック2には15人の参加者と26人の応募がある。提案手法の性能によると, 複雑なシナリオやゼロショットシナリオにおいて, 期待される情報抽出性能にはまだ大きなギャップがあると考えられる。
論文参考訳（メタデータ） (2023-06-05T22:20:52Z)
AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文参考訳（メタデータ） (2023-05-28T16:28:49Z)
ICDAR 2023 Competition on Robust Layout Segmentation in Corporate Documents [3.6700088931938835]
ICDARは、最先端の技術をベンチマークするコンペを主催する長い伝統がある。以前のコンペティションよりもバーを上げるために、ハードコンペティションデータセットを設計し、トレーニング用の最近のDocLayNetデータセットを提案しました。我々は,最近のコンピュータビジョンモデル,データ拡張戦略,アンサンブル手法の興味深い組み合わせを認識し,提案したタスクにおいて顕著な精度を実現する。
論文参考訳（メタデータ） (2023-05-24T09:56:47Z)
A Survey of Historical Document Image Datasets [2.8707038627097226]
本稿では,文書画像解析のための画像データセットの体系的な文献レビューを行う。手書きの写本や初期の版画などの史料に焦点が当てられている。歴史的文書分析のための適切なデータセットを見つけることは、異なる機械学習アルゴリズムを用いた研究を促進するための重要な前提条件である。
論文参考訳（メタデータ） (2022-03-16T09:56:48Z)
A Fast Fully Octave Convolutional Neural Network for Document Image Segmentation [1.8426817621478804]
ID画像中の文書のエッジやテキスト領域を検出するためのU-Netに基づく手法について検討する。本研究では,オクタベ・コンボリューションに基づくモデル最適化手法を提案する。その結果,提案手法はセグメンテーションタスクの文書化やポータブル化に有効であることがわかった。
論文参考訳（メタデータ） (2020-04-03T00:57:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。