論文の概要: Test-Time Adaptation for Visual Document Understanding
- arxiv url: http://arxiv.org/abs/2206.07240v2
- Date: Wed, 23 Aug 2023 22:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 19:02:06.110659
- Title: Test-Time Adaptation for Visual Document Understanding
- Title(参考訳): ビジュアル文書理解のためのテスト時間適応
- Authors: Sayna Ebrahimi, Sercan O. Arik, Tomas Pfister
- Abstract要約: DocTTAは文書に対する新しいテスト時間適応手法である。
未ラベルのターゲット文書データを使用して、ソースフリーのドメイン適応を行う。
各種のVDUタスクに対して,既存の公開データセットを用いた新しいベンチマークを導入する。
- 参考スコア(独自算出の注目度): 34.79168501080629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For visual document understanding (VDU), self-supervised pretraining has been
shown to successfully generate transferable representations, yet, effective
adaptation of such representations to distribution shifts at test-time remains
to be an unexplored area. We propose DocTTA, a novel test-time adaptation
method for documents, that does source-free domain adaptation using unlabeled
target document data. DocTTA leverages cross-modality self-supervised learning
via masked visual language modeling, as well as pseudo labeling to adapt models
learned on a \textit{source} domain to an unlabeled \textit{target} domain at
test time. We introduce new benchmarks using existing public datasets for
various VDU tasks, including entity recognition, key-value extraction, and
document visual question answering. DocTTA shows significant improvements on
these compared to the source model performance, up to 1.89\% in (F1 score),
3.43\% (F1 score), and 17.68\% (ANLS score), respectively. Our benchmark
datasets are available at \url{https://saynaebrahimi.github.io/DocTTA.html}.
- Abstract(参考訳): 視覚的文書理解 (VDU) では, 自己教師による事前学習によって伝達可能な表現が生成できることが示されているが, テスト時の分散シフトに対する表現の効果的な適応は未探索領域のままである。
本稿では,ラベルなしの文書データを用いたソースフリーなドメイン適応を実現する,新しい文書用テストタイム適応手法であるdocttaを提案する。
docttaは、マスク付きビジュアル言語モデリングによるクロスモダリティな自己教師付き学習と、テスト時にunlabeled \textit{target}ドメインに \textit{source}ドメインで学習されたモデルを適応させるための擬似ラベルを使用する。
本稿では,エンティティ認識,キー値抽出,文書視覚質問応答など,VDUタスクのための既存の公開データセットを用いた新しいベンチマークを提案する。
DocTTAは、ソースモデルのパフォーマンスと比較して、それぞれ1.89\%(F1スコア)、3.43\%(F1スコア)、17.68\%(ANLSスコア)まで大幅に改善されている。
ベンチマークデータセットは \url{https://saynaebrahimi.github.io/doctta.html} で利用可能です。
関連論文リスト
- Self-Supervised Vision Transformers for Writer Retrieval [2.949446809950691]
Vision Transformer (ViT) に基づく手法は、多くの領域で最先端のパフォーマンスを実現している。
本稿では,VLADエンコーディングを用いてVTから特徴を抽出し,それらを集約する手法を提案する。
著者検索の文脈において,VTのクラストークンを使用するよりも,局所的な前景特徴の抽出の方が優れていることを示す。
論文 参考訳(メタデータ) (2024-09-01T15:29:58Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文 参考訳(メタデータ) (2023-06-29T20:25:28Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Spatial Dual-Modality Graph Reasoning for Key Information Extraction [31.04597531115209]
本研究では,非構造化文書画像から鍵情報を抽出するSDMG-R法を提案する。
我々はWildReceiptという新しいデータセットを公開し、野生の目に見えないテンプレートの文書画像からキー情報を抽出し、注釈を付ける。
論文 参考訳(メタデータ) (2021-03-26T13:46:00Z) - Robust Layout-aware IE for Visually Rich Documents with Pre-trained
Language Models [23.42593796135709]
視覚的にリッチな文書(VRD)からの情報抽出の問題について検討する。
ビジネス文書のテキスト情報と視覚情報の両方を効率的に符号化するために,大規模な事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2020-05-22T06:04:50Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。