論文の概要: DocTTT: Test-Time Training for Handwritten Document Recognition Using Meta-Auxiliary Learning
- arxiv url: http://arxiv.org/abs/2501.12898v1
- Date: Wed, 22 Jan 2025 14:18:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 13:29:38.223074
- Title: DocTTT: Test-Time Training for Handwritten Document Recognition Using Meta-Auxiliary Learning
- Title(参考訳): DocTTT:メタ補助学習を用いた手書き文書認識のためのテスト時間学習
- Authors: Wenhao Gu, Li Gu, Ziqiang Wang, Ching Yee Suen, Yang Wang,
- Abstract要約: これらの課題に対処するためにDocTTTフレームワークを導入します。
このアプローチの主な革新は、テスト中に各特定の入力にモデルを適応させるために、テストタイムトレーニングを使用することです。
メタ学習と自己教師型マスクオートエンコーダ(MAE)を組み合わせたメタ補助学習手法を提案する。
- 参考スコア(独自算出の注目度): 7.036629164442979
- License:
- Abstract: Despite recent significant advancements in Handwritten Document Recognition (HDR), the efficient and accurate recognition of text against complex backgrounds, diverse handwriting styles, and varying document layouts remains a practical challenge. Moreover, this issue is seldom addressed in academic research, particularly in scenarios with minimal annotated data available. In this paper, we introduce the DocTTT framework to address these challenges. The key innovation of our approach is that it uses test-time training to adapt the model to each specific input during testing. We propose a novel Meta-Auxiliary learning approach that combines Meta-learning and self-supervised Masked Autoencoder~(MAE). During testing, we adapt the visual representation parameters using a self-supervised MAE loss. During training, we learn the model parameters using a meta-learning framework, so that the model parameters are learned to adapt to a new input effectively. Experimental results show that our proposed method significantly outperforms existing state-of-the-art approaches on benchmark datasets.
- Abstract(参考訳): 近年の手書き文書認識(HDR)が著しく進歩しているにもかかわらず、複雑な背景、多様な手書きスタイル、様々な文書レイアウトに対するテキストの効率的かつ正確な認識は実用的課題である。
さらに、この問題は学術研究、特に最小限の注釈付きデータが利用できるシナリオでは、ほとんど解決されない。
本稿では,これらの課題に対処するためのDocTTTフレームワークを紹介する。
このアプローチの重要な革新は、テスト中に各特定のインプットにモデルを適応させるために、テストタイムトレーニングを使用することです。
本稿ではメタラーニングと自己教師型マスクオートエンコーダ(MAE)を組み合わせたメタ補助学習手法を提案する。
テスト中、自己教師付きMAE損失を用いて視覚表現パラメータを適応する。
トレーニング中、メタラーニングフレームワークを用いてモデルパラメータを学習し、モデルパラメータを学習して新しい入力に効果的に適用する。
実験結果から,提案手法はベンチマークデータセットにおける既存の最先端手法を著しく上回ることがわかった。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Improving embedding with contrastive fine-tuning on small datasets with expert-augmented scores [12.86467344792873]
提案手法では,専門的なスコアから派生したソフトラベルをファインチューン埋め込みモデルに適用する。
オンラインショッピングサイトと8つのエキスパートモデルからQ&Aデータセットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-08-19T01:59:25Z) - Combating Missing Modalities in Egocentric Videos at Test Time [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Test-Time Training on Graphs with Large Language Models (LLMs) [68.375487369596]
グラフニューラルネットワーク(GNN)をトレーニングするための有望なアプローチとして,TTT(Test-Time Training)が提案されている。
テキスト分散グラフ(TAG)上でのLLM(Large Language Models)の優れたアノテーション能力に着想を得て,LLMをアノテータとしてグラフ上でのテスト時間トレーニングを強化することを提案する。
2段階のトレーニング戦略は、限定的でノイズの多いラベルでテストタイムモデルを調整するように設計されている。
論文 参考訳(メタデータ) (2024-04-21T08:20:02Z) - Development of an NLP-driven computer-based test guide for visually
impaired students [0.28647133890966986]
視覚障害者のためのNLP駆動型コンピュータベーステストガイドを提案する。
リアルタイムの支援と視覚障害のある生徒への支援を提供するために、事前に訓練された音声技術を採用している。
論文 参考訳(メタデータ) (2024-01-22T21:59:00Z) - MetricPrompt: Prompting Model as a Relevance Metric for Few-shot Text
Classification [65.51149771074944]
MetricPromptは、数発のテキスト分類タスクをテキストペア関連性推定タスクに書き換えることで、言語設計の難易度を緩和する。
広範に使われている3つのテキスト分類データセットを4つのショット・セッティングで実験する。
結果から,MetricPromptは,手動弁証法や自動弁証法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-06-15T06:51:35Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition [16.987008461171065]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。