Fugu-MT 論文翻訳(概要): Test-Time Adaptation for Visual Document Understanding

論文の概要: Test-Time Adaptation for Visual Document Understanding

arxiv url: http://arxiv.org/abs/2206.07240v2
Date: Wed, 23 Aug 2023 22:54:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-25 19:02:06.110659
Title: Test-Time Adaptation for Visual Document Understanding
Title（参考訳）: ビジュアル文書理解のためのテスト時間適応
Authors: Sayna Ebrahimi, Sercan O. Arik, Tomas Pfister
Abstract要約: DocTTAは文書に対する新しいテスト時間適応手法である。未ラベルのターゲット文書データを使用して、ソースフリーのドメイン適応を行う。各種のVDUタスクに対して,既存の公開データセットを用いた新しいベンチマークを導入する。
参考スコア（独自算出の注目度）: 34.79168501080629
License: http://creativecommons.org/licenses/by/4.0/
Abstract: For visual document understanding (VDU), self-supervised pretraining has been shown to successfully generate transferable representations, yet, effective adaptation of such representations to distribution shifts at test-time remains to be an unexplored area. We propose DocTTA, a novel test-time adaptation method for documents, that does source-free domain adaptation using unlabeled target document data. DocTTA leverages cross-modality self-supervised learning via masked visual language modeling, as well as pseudo labeling to adapt models learned on a \textit{source} domain to an unlabeled \textit{target} domain at test time. We introduce new benchmarks using existing public datasets for various VDU tasks, including entity recognition, key-value extraction, and document visual question answering. DocTTA shows significant improvements on these compared to the source model performance, up to 1.89\% in (F1 score), 3.43\% (F1 score), and 17.68\% (ANLS score), respectively. Our benchmark datasets are available at \url{https://saynaebrahimi.github.io/DocTTA.html}.
Abstract（参考訳）: 視覚的文書理解 (VDU) では, 自己教師による事前学習によって伝達可能な表現が生成できることが示されているが, テスト時の分散シフトに対する表現の効果的な適応は未探索領域のままである。本稿では,ラベルなしの文書データを用いたソースフリーなドメイン適応を実現する,新しい文書用テストタイム適応手法であるdocttaを提案する。 docttaは、マスク付きビジュアル言語モデリングによるクロスモダリティな自己教師付き学習と、テスト時にunlabeled \textit{target}ドメインに \textit{source}ドメインで学習されたモデルを適応させるための擬似ラベルを使用する。本稿では,エンティティ認識,キー値抽出,文書視覚質問応答など,VDUタスクのための既存の公開データセットを用いた新しいベンチマークを提案する。 DocTTAは、ソースモデルのパフォーマンスと比較して、それぞれ1.89\%(F1スコア)、3.43\%(F1スコア)、17.68\%(ANLSスコア)まで大幅に改善されている。ベンチマークデータセットは \url{https://saynaebrahimi.github.io/doctta.html} で利用可能です。

関連論文リスト

Adapting Vision-Language Models Without Labels: A Comprehensive Survey [74.17944178027015]
VLM(Vision-Language Models)は、幅広いタスクにまたがる顕著な一般化機能を示す。近年,ラベル付きデータに依存しない教師なし適応手法に注目が集まっている。本稿では,未ラベルの視覚データの可用性と性質に基づく分類法を提案し,既存のアプローチを4つの重要なパラダイムに分類する。
論文参考訳（メタデータ） (2025-08-07T16:27:37Z)
Doc2Chart: Intent-Driven Zero-Shot Chart Generation from Documents [7.616682226138909]
文書から意図に基づくチャート生成の課題を紹介する。ゴールは、意図に忠実なチャートを生成し、ゼロショット設定でドキュメントに基盤を置くことです。本稿では,チャートの構造化テキスト表現を用いた属性に基づくメトリクスを提案する。
論文参考訳（メタデータ） (2025-07-20T04:34:59Z)
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文参考訳（メタデータ） (2025-04-03T18:47:16Z)
VISA: Retrieval Augmented Generation with Visual Source Attribution [100.78278689901593]
RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
論文参考訳（メタデータ） (2024-12-19T02:17:35Z)
Self-Supervised Vision Transformers for Writer Retrieval [2.949446809950691]
Vision Transformer (ViT) に基づく手法は、多くの領域で最先端のパフォーマンスを実現している。本稿では,VLADエンコーディングを用いてVTから特徴を抽出し,それらを集約する手法を提案する。著者検索の文脈において,VTのクラストークンを使用するよりも,局所的な前景特徴の抽出の方が優れていることを示す。
論文参考訳（メタデータ） (2024-09-01T15:29:58Z)
Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。 FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文参考訳（メタデータ） (2024-07-09T14:35:49Z)
Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。 ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文参考訳（メタデータ） (2024-03-25T08:00:43Z)
Align Your Prompts: Test-Time Prompting with Distribution Alignment for Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文参考訳（メタデータ） (2023-11-02T17:59:32Z)
Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文参考訳（メタデータ） (2023-06-29T20:25:28Z)
GVdoc: Graph-based Visual Document Classification [17.350393956461783]
グラフに基づく文書分類モデルであるGVdocを提案する。提案手法では,そのレイアウトに基づいて文書グラフを生成し,グラフニューラルネットワークを用いてノードとグラフの埋め込みを学習する。パラメータが少なくても、我々のモデルは分布外データ上で最先端のモデルより優れていることを示す。
論文参考訳（メタデータ） (2023-05-26T19:23:20Z)
SelfDocSeg: A Self-Supervised vision-based Approach towards Document Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文参考訳（メタデータ） (2023-05-01T12:47:55Z)
Spatial Dual-Modality Graph Reasoning for Key Information Extraction [31.04597531115209]
本研究では,非構造化文書画像から鍵情報を抽出するSDMG-R法を提案する。我々はWildReceiptという新しいデータセットを公開し、野生の目に見えないテンプレートの文書画像からキー情報を抽出し、注釈を付ける。
論文参考訳（メタデータ） (2021-03-26T13:46:00Z)
Robust Layout-aware IE for Visually Rich Documents with Pre-trained Language Models [23.42593796135709]
視覚的にリッチな文書(VRD)からの情報抽出の問題について検討する。ビジネス文書のテキスト情報と視覚情報の両方を効率的に符号化するために,大規模な事前学習言語モデルとグラフニューラルネットワークのパワーを組み合わせたモデルを提案する。
論文参考訳（メタデータ） (2020-05-22T06:04:50Z)
Named Entity Recognition without Labelled Data: A Weak Supervision Approach [23.05371427663683]
本稿では,ラベル付きデータがない場合のNERモデルの学習方法を提案する。このアプローチは、ターゲットドメインからテキストを自動的にアノテートするために、幅広いラベリング関数に依存している。シーケンスラベリングモデルは、最終的にこの統一アノテーションに基づいて訓練することができる。
論文参考訳（メタデータ） (2020-04-30T12:29:55Z)
Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文参考訳（メタデータ） (2020-03-30T03:04:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。