論文の概要: RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization
- arxiv url: http://arxiv.org/abs/2404.09530v2
- Date: Fri, 19 Apr 2024 06:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 12:21:28.304921
- Title: RanLayNet: A Dataset for Document Layout Detection used for Domain Adaptation and Generalization
- Title(参考訳): RanLayNet: ドメイン適応と一般化に使用されるドキュメントレイアウト検出用データセット
- Authors: Avinash Anand, Raj Jaiswal, Mohit Gupta, Siddhesh S Bangar, Pijush Bhuyan, Naman Lal, Rajeev Singh, Ritika Jha, Rajiv Ratn Shah, Shin'ichi Satoh,
- Abstract要約: RanLayNetは、自動的に割り当てられたラベルでリッチ化された合成ドキュメントデータセットである。
本研究では,データセットでトレーニングしたディープレイアウト識別モデルに対して,実際の文書のみをトレーニングしたモデルと比較して,性能が向上したことを示す。
- 参考スコア(独自算出の注目度): 36.973388673687815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large ground-truth datasets and recent advances in deep learning techniques have been useful for layout detection. However, because of the restricted layout diversity of these datasets, training on them requires a sizable number of annotated instances, which is both expensive and time-consuming. As a result, differences between the source and target domains may significantly impact how well these models function. To solve this problem, domain adaptation approaches have been developed that use a small quantity of labeled data to adjust the model to the target domain. In this research, we introduced a synthetic document dataset called RanLayNet, enriched with automatically assigned labels denoting spatial positions, ranges, and types of layout elements. The primary aim of this endeavor is to develop a versatile dataset capable of training models with robustness and adaptability to diverse document formats. Through empirical experimentation, we demonstrate that a deep layout identification model trained on our dataset exhibits enhanced performance compared to a model trained solely on actual documents. Moreover, we conduct a comparative analysis by fine-tuning inference models using both PubLayNet and IIIT-AR-13K datasets on the Doclaynet dataset. Our findings emphasize that models enriched with our dataset are optimal for tasks such as achieving 0.398 and 0.588 mAP95 score in the scientific document domain for the TABLE class.
- Abstract(参考訳): 大規模地下構造データセットと近年のディープラーニング技術の発展は,レイアウト検出に有用である。
しかしながら、これらのデータセットのレイアウトの多様性が制限されているため、トレーニングには膨大な数のアノテーション付きインスタンスが必要であり、これは高価かつ時間を要する。
結果として、ソースドメインとターゲットドメインの違いは、これらのモデルがどのように機能するかに大きな影響を与える可能性がある。
この問題を解決するために、少量のラベル付きデータを用いてモデルを対象領域に調整するドメイン適応手法が開発されている。
本研究では,空間的位置,範囲,レイアウト要素の種類を示すラベルを自動的に付与したRanLayNetという合成文書データセットを導入した。
この取り組みの主な目的は、多様な文書形式に頑健で適応可能なモデルをトレーニングできる汎用データセットを開発することである。
実験により,データセット上でトレーニングした深層構造同定モデルは,実際の文書のみをトレーニングしたモデルと比較して,性能が向上していることが実証された。
さらに、Doclaynetデータセット上でPubLayNetとIIIT-AR-13Kデータセットの両方を用いて、微調整推論モデルを用いて比較分析を行う。
以上の結果から,TABLE クラスでは 0.398 と 0.588 mAP95 のスコアを達成できるようなタスクに,データセットに富んだモデルが最適であることが示唆された。
関連論文リスト
- Cross-Domain Content Generation with Domain-Specific Small Language Models [3.2772349789781616]
そこで本研究では,2つのドメインに対して,コーヒーレントかつ関連する出力を生成するための小言語モデルを提案する。
それぞれのデータセットに合わせてカスタマイズされたカスタムトークン化ツールを利用することで、生成品質が大幅に向上することがわかった。
凍結層による知識拡張は,小言語モデルがドメイン固有のコンテンツを生成するのに有効な方法であることを示す。
論文 参考訳(メタデータ) (2024-09-19T21:45:13Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Stacking Ensemble Learning in Deep Domain Adaptation for Ophthalmic
Image Classification [61.656149405657246]
ドメイン適応は、十分なラベルデータを取得することが困難な画像分類タスクに有効である。
本稿では,3つのドメイン適応手法を拡張することで,アンサンブル学習を積み重ねるための新しい手法SELDAを提案する。
Age-Related Eye Disease Study (AREDS)ベンチマーク眼科データセットを用いた実験結果から,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2022-09-27T14:19:00Z) - Domain Alignment Meets Fully Test-Time Adaptation [24.546705919244936]
デプロイされたMLモデルの基本的な要件は、トレーニングとは異なるテストディストリビューションから引き出されたデータに一般化することである。
本稿では,元のソースデータへのアクセスを制限した,この問題の難易度に焦点をあてる。
ソースデータ全体にアクセスする必要性を緩和し,UDAとFTTAを橋渡しする新しいアプローチCATTAnを提案する。
論文 参考訳(メタデータ) (2022-07-09T03:17:19Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Learning to Cluster under Domain Shift [20.00056591000625]
本研究では、ソースデータとターゲットデータの両方にアノテーションがない場合に、ソースからターゲットドメインに知識を転送する問題に対処する。
ディープクラスタリングに関する最近の研究から着想を得た私たちのアプローチは、複数のソースドメインから収集されたデータからの情報を活用する。
本手法は,少数のサンプルが存在する場合でも,関連する意味情報を自動的に発見できることを示す。
論文 参考訳(メタデータ) (2020-08-11T12:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。