論文の概要: Test-Time Adaptation for Visual Document Understanding
- arxiv url: http://arxiv.org/abs/2206.07240v1
- Date: Wed, 15 Jun 2022 01:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-17 09:04:06.750553
- Title: Test-Time Adaptation for Visual Document Understanding
- Title(参考訳): ビジュアル文書理解のためのテスト時間適応
- Authors: Sayna Ebrahimi, Sercan O. Arik, Tomas Pfister
- Abstract要約: 自己教師付き事前学習は、様々な視覚的文書理解(VDU)タスクのための転送可能な表現を生成することができる。
本論文では,モダリティ横断型自己教師型学習を活用した文書を対象とした新しいテスト時間適応手法DocTTAを提案する。
- 参考スコア(独自算出の注目度): 30.344988129969124
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised pretraining has been able to produce transferable
representations for various visual document understanding (VDU) tasks. However,
the ability of such representations to adapt to new distribution shifts at
test-time has not been studied yet. We propose DocTTA, a novel test-time
adaptation approach for documents that leverages cross-modality self-supervised
learning via masked visual language modeling as well as pseudo labeling to
adapt models learned on a \textit{source} domain to an unlabeled
\textit{target} domain at test time. We also introduce new benchmarks using
existing public datasets for various VDU tasks including entity recognition,
key-value extraction, and document visual question answering tasks where DocTTA
improves the source model performance up to 1.79\% in (F1 score), 3.43\% (F1
score), and 17.68\% (ANLS score), respectively while drastically reducing
calibration error on target data.
- Abstract(参考訳): 自己教師付き事前学習は、様々な視覚文書理解(vdu)タスクの転送可能な表現を生成することができる。
しかし、そのような表現がテスト時に新しい分布シフトに適応する能力はまだ研究されていない。
我々は,クロスモダリティな自己教師付き学習をマスキングビジュアル言語モデルと擬似ラベリングを用いて活用し,テスト時に \textit{source} ドメインで学習したモデルを unlabeled \textit{target} ドメインに適応させる,新しいテスト時間適応手法である doctta を提案する。
また,エンティティ認識,キー値抽出,文書視覚質問応答タスクなど,さまざまなVDUタスクのための既存の公開データセットを用いて,DocTTAがソースモデルの性能を最大1.79\%(F1スコア),3.43\%(F1スコア),17.68\%(ANLSスコア)まで改善し,目標データに対する校正誤差を大幅に低減したベンチマークも導入した。
関連論文リスト
- VISA: Retrieval Augmented Generation with Visual Source Attribution [100.78278689901593]
RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。
本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。
本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
論文 参考訳(メタデータ) (2024-12-19T02:17:35Z) - Self-Supervised Vision Transformers for Writer Retrieval [2.949446809950691]
Vision Transformer (ViT) に基づく手法は、多くの領域で最先端のパフォーマンスを実現している。
本稿では,VLADエンコーディングを用いてVTから特徴を抽出し,それらを集約する手法を提案する。
著者検索の文脈において,VTのクラストークンを使用するよりも,局所的な前景特徴の抽出の方が優れていることを示す。
論文 参考訳(メタデータ) (2024-09-01T15:29:58Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文 参考訳(メタデータ) (2023-06-29T20:25:28Z) - GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。
提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。
パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-05-26T19:23:20Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Spatial Dual-Modality Graph Reasoning for Key Information Extraction [31.04597531115209]
本研究では,非構造化文書画像から鍵情報を抽出するSDMG-R法を提案する。
我々はWildReceiptという新しいデータセットを公開し、野生の目に見えないテンプレートの文書画像からキー情報を抽出し、注釈を付ける。
論文 参考訳(メタデータ) (2021-03-26T13:46:00Z) - Robust Layout-aware IE for Visually Rich Documents with Pre-trained
Language Models [23.42593796135709]
視覚的にリッチな文書(VRD)からの情報抽出の問題について検討する。
ビジネス文書のテキスト情報と視覚情報の両方を効率的に符号化するために,大規模な事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2020-05-22T06:04:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。