論文の概要: Document Domain Randomization for Deep Learning Document Layout
Extraction
- arxiv url: http://arxiv.org/abs/2105.14931v1
- Date: Thu, 20 May 2021 19:16:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 09:53:07.364089
- Title: Document Domain Randomization for Deep Learning Document Layout
Extraction
- Title(参考訳): ディープラーニング文書レイアウト抽出のための文書領域ランダム化
- Authors: Meng Ling and Jian Chen and Torsten M\"oller and Petra Isenberg and
Tobias Isenberg and Michael Sedlmair and Robert S. Laramee and Han-Wei Shen
and Jian Wu and C. Lee Giles
- Abstract要約: 文書領域のランダム化(DDR)は,図式化された擬似紙ページのみにトレーニングされた畳み込みニューラルネットワーク(CNN)の転送に成功した最初の例である。
DDRは、興味のあるランダム化されたテキストと非テキストの内容をモデル化することで、擬似文書ページをレンダリングする。
高忠実度意味情報はセマンティッククラスをラベル付けする必要はないが、列車とテスト間のスタイルミスマッチはモデルの精度を低下させる可能性がある。
- 参考スコア(独自算出の注目度): 37.97092983885967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present document domain randomization (DDR), the first successful transfer
of convolutional neural networks (CNNs) trained only on graphically rendered
pseudo-paper pages to real-world document segmentation. DDR renders
pseudo-document pages by modeling randomized textual and non-textual contents
of interest, with user-defined layout and font styles to support joint learning
of fine-grained classes. We demonstrate competitive results using our DDR
approach to extract nine document classes from the benchmark CS-150 and papers
published in two domains, namely annual meetings of Association for
Computational Linguistics (ACL) and IEEE Visualization (VIS). We compare DDR to
conditions of style mismatch, fewer or more noisy samples that are more easily
obtained in the real world. We show that high-fidelity semantic information is
not necessary to label semantic classes but style mismatch between train and
test can lower model accuracy. Using smaller training samples had a slightly
detrimental effect. Finally, network models still achieved high test accuracy
when correct labels are diluted towards confusing labels; this behavior hold
across several classes.
- Abstract(参考訳): 文書領域のランダム化(DDR)は,仮想的に描画された擬似紙ページにのみ訓練された畳み込みニューラルネットワーク(CNN)の最初の成功例である。
DDRは、ユーザが定義したレイアウトとフォントスタイルを用いて、ランダム化されたテキストコンテンツと非テキストコンテンツとをモデル化し、擬似文書ページをレンダリングする。
ベンチマークcs-150から9つのドキュメントクラスを抽出し,2つの領域で発表する論文,すなわち,計算言語学会 (acl) とieeeビジュアライゼーション (vis) の年次会合から,ddrによる比較結果を示す。
我々はDDRとスタイルミスマッチの条件を比較し、実世界でより容易に得られるノイズの多いサンプルを減らした。
意味クラスをラベル付けるには高忠実度意味情報を必要としないが,トレインとテストのスタイルミスマッチはモデルの精度を低下させる可能性がある。
より小さなトレーニングサンプルを使用すると、わずかに有害な効果があった。
最後に、正しいラベルが混乱するラベルに向かって希釈される場合、ネットワークモデルはまだ高いテスト精度を達成している。
関連論文リスト
- Leveraging Semantic Segmentation Masks with Embeddings for Fine-Grained Form Classification [0.0]
史料の効率的な分類は系譜学、法学、歴史学などの分野において重要である。
本稿では、ResNet、マスク付き画像変換器(Di)、埋め込みセグメンテーションなどのディープラーニングモデルを統合した表現型学習戦略を提案する。
論文 参考訳(メタデータ) (2024-05-23T04:28:50Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes [93.71909293023663]
クロスモダリティ・アライテッド・プロトタイプ(CAPro)は、視覚表現を正しい意味論で学習する統合コントラスト学習フレームワークである。
CAProは、新しい最先端のパフォーマンスを実現し、オープンセット認識に対する堅牢性を示す。
論文 参考訳(メタデータ) (2023-10-15T07:20:22Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - I2DFormer: Learning Image to Document Attention for Zero-Shot Image
Classification [123.90912800376039]
オンラインテキスト文書(例えばウィキペディア)には、オブジェクトクラスに関する豊富な視覚的記述が含まれている。
画像や文書のエンコードを共同で学習するトランスフォーマーベースのZSLフレームワークであるI2DFormerを提案する。
提案手法は,画像領域に文書語を接地可能な高解釈可能な結果をもたらす。
論文 参考訳(メタデータ) (2022-09-21T12:18:31Z) - Knowing Where and What: Unified Word Block Pretraining for Document
Understanding [11.46378901674016]
We propose UTel, a language model with Unified TExt and layout pre-training。
具体的には、レイアウト学習のための単語予測(SWP)と、異なる単語ブロックを特定するための単語埋め込み(CWE)のコントラスト学習の2つの事前学習タスクを提案する。
このようにして、Masked Layout-Language Modeling (MLLM)と2つの新しいタスクの共同トレーニングにより、意味的特徴と空間的特徴を統一的に相互作用させることができる。
論文 参考訳(メタデータ) (2022-07-28T09:43:06Z) - Semi-Supervised Learning of Semantic Correspondence with Pseudo-Labels [26.542718087103665]
SemiMatchは意味論的に類似した画像間の密接な対応を確立するための半教師付きソリューションである。
筆者らのフレームワークは,ソースと弱増強ターゲット間のモデル予測自体を用いて擬似ラベルを生成し,擬似ラベルを用いてソースと強増強ターゲット間のモデルの再学習を行う。
実験では、SemiMatchは様々なベンチマーク、特にPF-Willowにおける最先端のパフォーマンスを大きなマージンで達成している。
論文 参考訳(メタデータ) (2022-03-30T03:52:50Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - OrigamiNet: Weakly-Supervised, Segmentation-Free, One-Step, Full Page
Text Recognition by learning to unfold [6.09170287691728]
セグメンテーションフリーのシングルライン認識からセグメンテーションフリーのマルチライン/フルページ認識へ進む。
我々は、CTCで訓練された完全畳み込み単行文字認識装置を拡張可能な、新しいシンプルなニューラルネットワークモジュール、textbfOrigamiNetを提案する。
IAM と ICDAR 2017 の HTR ベンチマークでは,手書き文字認識の精度が他のすべての手法を上回り,最先端の文字誤り率を実現している。
論文 参考訳(メタデータ) (2020-06-12T22:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。