論文の概要: Cross-Domain Document Object Detection: Benchmark Suite and Method
- arxiv url: http://arxiv.org/abs/2003.13197v1
- Date: Mon, 30 Mar 2020 03:04:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 07:44:27.055367
- Title: Cross-Domain Document Object Detection: Benchmark Suite and Method
- Title(参考訳): クロスドメインドキュメントオブジェクト検出:ベンチマークスイートおよび方法
- Authors: Kai Li, Curtis Wigington, Chris Tensmeyer, Handong Zhao, Nikolaos
Barmpalios, Vlad I. Morariu, Varun Manjunatha, Tong Sun, Yun Fu
- Abstract要約: 文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
- 参考スコア(独自算出の注目度): 71.4339949510586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decomposing images of document pages into high-level semantic regions (e.g.,
figures, tables, paragraphs), document object detection (DOD) is fundamental
for downstream tasks like intelligent document editing and understanding. DOD
remains a challenging problem as document objects vary significantly in layout,
size, aspect ratio, texture, etc. An additional challenge arises in practice
because large labeled training datasets are only available for domains that
differ from the target domain. We investigate cross-domain DOD, where the goal
is to learn a detector for the target domain using labeled data from the source
domain and only unlabeled data from the target domain. Documents from the two
domains may vary significantly in layout, language, and genre. We establish a
benchmark suite consisting of different types of PDF document datasets that can
be utilized for cross-domain DOD model training and evaluation. For each
dataset, we provide the page images, bounding box annotations, PDF files, and
the rendering layers extracted from the PDF files. Moreover, we propose a novel
cross-domain DOD model which builds upon the standard detection model and
addresses domain shifts by incorporating three novel alignment modules: Feature
Pyramid Alignment (FPA) module, Region Alignment (RA) module and Rendering
Layer alignment (RLA) module. Extensive experiments on the benchmark suite
substantiate the efficacy of the three proposed modules and the proposed method
significantly outperforms the baseline methods. The project page is at
\url{https://github.com/kailigo/cddod}.
- Abstract(参考訳): 文書ページのイメージを高レベルの意味領域(図、表、段落など)に分解する、文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
ドキュメントオブジェクトはレイアウト、サイズ、アスペクト比、テクスチャなどによって大きく異なります。
大規模なラベル付きトレーニングデータセットは、ターゲットドメインとは異なるドメインでのみ利用できるため、実際には別の課題が発生する。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
2つのドメインの文書はレイアウト、言語、ジャンルで大きく異なる可能性がある。
我々は,異なるタイプのPDF文書データセットからなるベンチマークスイートを構築し,ドメイン間のDODモデルのトレーニングと評価に使用できる。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
さらに,標準検出モデルに基づいて,特徴ピラミッドアライメント(fpa)モジュール,領域アライメント(ra)モジュール,レンダリング層アライメント(rla)モジュールの3つの新しいアライメントモジュールを組み込んだ,新たなクロスドメインdodモデルを提案する。
ベンチマークスイートにおける広範囲な実験は、3つのモジュールの有効性を実証し、提案手法はベースライン法を大きく上回っている。
プロジェクトページは \url{https://github.com/kailigo/cddod} にある。
関連論文リスト
- Bidirectional Generative Framework for Cross-domain Aspect-based
Sentiment Analysis [68.742820522137]
クロスドメインアスペクトベースの感情分析(ABSA)は、ソースドメインから知識を伝達することで、ターゲットドメイン上で様々なきめ細かい感情分析タスクを実行することを目的としている。
本稿では,多様なドメイン間ABSAタスクに対処するための統合双方向生成フレームワークを提案する。
我々のフレームワークは、テキストからラベルまでの方向とラベルからテキストへの方向の両方で生成モデルを訓練する。
論文 参考訳(メタデータ) (2023-05-16T15:02:23Z) - WUDA: Unsupervised Domain Adaptation Based on Weak Source Domain Labels [5.718326013810649]
セマンティックセグメンテーションのための教師なしドメイン適応(UDA)は、細かなソースドメインラベルを持つクロスドメイン問題に対処する。
本稿では、弱ソースドメインラベルに基づく教師なしドメイン適応という新しいタスクを定義する。
論文 参考訳(メタデータ) (2022-10-05T08:28:57Z) - Multi-Modal Cross-Domain Alignment Network for Video Moment Retrieval [55.122020263319634]
ビデオモーメント検索(VMR)は、与えられた言語クエリに従って、未編集のビデオからターゲットモーメントをローカライズすることを目的としている。
本稿では、新しいタスクであるクロスドメインVMRに焦点を当て、完全なアノテーション付きデータセットをひとつのドメインで利用できるが、関心のあるドメインは、注釈なしのデータセットのみを含む。
本稿では、アノテーションの知識をソースドメインからターゲットドメインに転送するマルチモーダル・クロスドメインアライメント・ネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-23T12:58:20Z) - Cross-Domain Document Layout Analysis Using Document Style Guide [15.799572801059716]
文書レイアウト解析(DLA)は、文書画像を高レベルな意味領域に分解することを目的としている。
多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。
本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T00:49:19Z) - Domain Adaptation for Real-World Single View 3D Reconstruction [1.611271868398988]
教師なしのドメイン適応は、ラベル付き合成ソースドメインからラベルなしの実際のターゲットドメインに知識を転送するために使用することができる。
本稿では,3次元モデルでは対象のドメインデータが教師されないが,クラスラベルでは教師されないという事実を生かして,新しいアーキテクチャを提案する。
その結果はShapeNetをソースドメインとして、Object Domain Suite(ODDS)データセット内のドメインをターゲットとして実行されます。
論文 参考訳(メタデータ) (2021-08-24T22:02:27Z) - Meta-FDMixup: Cross-Domain Few-Shot Learning Guided by Labeled Target
Data [95.47859525676246]
最近の研究では、ソースドメインで訓練された既存の数発の学習手法が、ドメインギャップが観測されると、新しいターゲットドメインに一般化できないことが判明している。
本稿では,クロスドメインFew-Shot Learningにおけるラベル付き目標データが,学習プロセスを支援するために利用されていないことに気付いた。
論文 参考訳(メタデータ) (2021-07-26T06:15:45Z) - Cross-domain Contrastive Learning for Unsupervised Domain Adaptation [108.63914324182984]
教師なしドメイン適応(Unsupervised domain adapt、UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。
対照的な自己教師型学習に基づいて、トレーニングとテストセット間のドメインの相違を低減するために、機能を整列させます。
論文 参考訳(メタデータ) (2021-06-10T06:32:30Z) - Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。
本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。
提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-25T14:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。