論文の概要: Unsupervised Neural Domain Adaptation for Document Image Binarization
- arxiv url: http://arxiv.org/abs/2012.01204v1
- Date: Wed, 2 Dec 2020 13:42:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:58:01.523221
- Title: Unsupervised Neural Domain Adaptation for Document Image Binarization
- Title(参考訳): 文書画像二元化のための教師なしニューラルドメイン適応
- Authors: Francisco J. Castellanos, Antonio-Javier Gallego, Jorge Calvo-Zaragoza
- Abstract要約: 本稿では,ニューラルネットワークとドメイン適応(DA)を組み合わせて,教師なし文書のバイナライゼーションを行う手法を提案する。
その結果,ラベル付きデータを必要とせず,新たな文書領域の双対化をうまく処理できることが示唆された。
- 参考スコア(独自算出の注目度): 13.848843012433187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Binarization is a well-known image processing task, whose objective is to
separate the foreground of an image from the background. One of the many tasks
for which it is useful is that of preprocessing document images in order to
identify relevant information, such as text or symbols. The wide variety of
document types, typologies, alphabets, and formats makes binarization
challenging, and there are, therefore, multiple proposals with which to solve
this problem, from classical manually-adjusted methods, to more recent
approaches based on machine learning. The latter techniques require a large
amount of training data in order to obtain good results; however, labeling a
portion of each existing collection of documents is not feasible in practice.
This is a common problem in supervised learning, which can be addressed by
using the so-called Domain Adaptation (DA) techniques. These techniques take
advantage of the knowledge learned in one domain, for which labeled data are
available, to apply it to other domains for which there are no labeled data.
This paper proposes a method that combines neural networks and DA in order to
carry out unsupervised document binarization. However, when both the source and
target domains are very similar, this adaptation could be detrimental. Our
methodology, therefore, first measures the similarity between domains in an
innovative manner in order to determine whether or not it is appropriate to
apply the adaptation process. The results reported in the experimentation, when
evaluating up to 20 possible combinations among five different domains, show
that our proposal successfully deals with the binarization of new document
domains without the need for labeled data.
- Abstract(参考訳): バイナリ化は、画像の前景を背景から分離することを目的とした、よく知られた画像処理タスクである。
有用なタスクの1つは、テキストやシンボルなどの関連情報を識別するために、文書イメージを前処理することである。
文書の種類、タイプ、アルファベット、フォーマットの多様さはバイナライゼーションを困難にしているため、古典的な手動調整手法から、機械学習に基づくより最近のアプローチまで、この問題を解決するための複数の提案がある。
後者の手法は、良好な結果を得るために大量のトレーニングデータを必要とするが、既存の文書コレクションの一部をラベル付けすることは現実には不可能である。
これは教師あり学習において一般的な問題であり、いわゆるドメイン適応(da)技術を用いて対処できる。
これらのテクニックは、ラベル付きデータが利用可能な1つのドメインで学習された知識を活用して、ラベル付きデータがない他のドメインに適用する。
本稿では,教師なし文書バイナライゼーションを実現するために,ニューラルネットワークとDAを組み合わせた手法を提案する。
しかし、ソースドメインとターゲットドメインの両方が非常に類似している場合、この適応は有害である可能性がある。
そこで本手法はまず,適応プロセスを適用するのが適切かどうかを判断するために,ドメイン間の類似性を革新的な方法で測定する。
実験の結果,5つのドメインの最大20種類の組み合わせを評価した結果,ラベル付きデータを必要としない新たなドキュメントドメインの双対化が得られた。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Multimodal Side-Tuning for Document Classification [3.0229888038442914]
サイドチューニング(Side-tuning)は、最近導入されたネットワーク適応の方法論である。
また,異なるデータソースを考慮した場合も,サイドチューニングをうまく活用できることが示唆された。
論文 参考訳(メタデータ) (2023-01-16T11:08:03Z) - Unifying Vision, Text, and Layout for Universal Document Processing [105.36490575974028]
本稿では,テキスト,画像,レイアウトのモダリティを文書理解と生成を含むさまざまなタスク形式とともに統合するドキュメントAIモデルを提案する。
我々の手法は、財務報告、学術論文、ウェブサイトなど、さまざまなデータ領域にまたがって、文書理解やQAといった9つのドキュメントAIタスクの最先端を定めている。
論文 参考訳(メタデータ) (2022-12-05T22:14:49Z) - Domain Agnostic Few-Shot Learning For Document Intelligence [4.243926243206826]
ほとんどショット学習は、クラスラベルを持つ少数のサンプルだけで、新しいクラスに一般化することを目的としていない。
本研究では,ドメインシフト下での文書画像分類の問題に対処する。
論文 参考訳(メタデータ) (2021-10-29T03:19:31Z) - Domain Adaptive Semantic Segmentation without Source Data [50.18389578589789]
モデルがソースドメイン上で事前学習されていることを前提として、ソースデータのないドメイン適応セマンティックセマンティックセマンティックセマンティクスについて検討する。
本稿では,この課題に対して,肯定的学習と否定的学習という2つの要素を用いた効果的な枠組みを提案する。
私たちのフレームワークは、パフォーマンスをさらに向上するために、他のメソッドに簡単に実装および組み込むことができます。
論文 参考訳(メタデータ) (2021-10-13T04:12:27Z) - Curriculum Graph Co-Teaching for Multi-Target Domain Adaptation [78.28390172958643]
マルチターゲットドメイン適応(MTDA)における複数のドメインシフトを軽減するのに役立つ2つの重要な側面を同定する。
本論文では,二重分類器ヘッドを用いたCGCT(Curriculum Graph Co-Teaching)を提案する。そのうちの1つがグラフ畳み込みネットワーク(GCN)である。
ドメインラベルが利用可能になると、まずより簡単なターゲットドメインに適応し、続いて難しいドメインに適応する逐次適応戦略であるDomain-Aware Curriculum Learning (DCL)を提案する。
論文 参考訳(メタデータ) (2021-04-01T23:41:41Z) - Towards Recognizing New Semantic Concepts in New Visual Domains [9.701036831490768]
我々は、これまで見えない視覚領域で機能し、新しいセマンティックな概念を認識できるディープアーキテクチャを設計することが重要であると論じている。
論文の第1部では、深層モデルが新しいビジュアルドメインに一般化できるように、異なるソリューションについて記述する。
第2部では、事前訓練された深層モデルの知識を、元のトレーニングセットにアクセスすることなく、新しい意味概念に拡張する方法を示す。
論文 参考訳(メタデータ) (2020-12-16T16:23:40Z) - mDALU: Multi-Source Domain Adaptation and Label Unification with Partial
Datasets [102.62639692656458]
本稿では,この課題をマルチソースドメイン適応とラベル統一の問題として扱う。
本手法は,部分教師あり適応段階と完全教師あり適応段階からなる。
本手法は,画像分類,2次元意味画像分割,ジョイント2d-3d意味セグメンテーションの3つのタスクで検証する。
論文 参考訳(メタデータ) (2020-12-15T15:58:03Z) - Two-stage generative adversarial networks for document image
binarization with color noise and background removal [7.639067237772286]
本稿では,2段階のカラー文書画像強調・バイナライゼーション手法を提案する。
第1段階では、4つの色非依存の敵ネットワークを訓練し、入力画像から色前景情報を抽出する。
第2段階では、大域的・局所的な特徴を持つ2つの独立した敵対的ネットワークが、可変サイズの文書の画像バイナライズのために訓練されている。
論文 参考訳(メタデータ) (2020-10-20T07:51:50Z) - A Review of Single-Source Deep Unsupervised Visual Domain Adaptation [81.07994783143533]
大規模ラベル付きトレーニングデータセットにより、ディープニューラルネットワークは、幅広いベンチマークビジョンタスクを拡張できるようになった。
多くのアプリケーションにおいて、大量のラベル付きデータを取得するのは非常に高価で時間を要する。
限られたラベル付きトレーニングデータに対処するため、大規模ラベル付きソースドメインでトレーニングされたモデルを、疎ラベルまたは未ラベルのターゲットドメインに直接適用しようと試みている人も多い。
論文 参考訳(メタデータ) (2020-09-01T00:06:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。