論文の概要: Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards
Enhancing Text Spotting Performance
- arxiv url: http://arxiv.org/abs/2310.00917v4
- Date: Wed, 1 Nov 2023 09:29:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 16:49:37.240003
- Title: Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards
Enhancing Text Spotting Performance
- Title(参考訳): 事前学習のための多言語データセットのパワー活用:テキストスポッティング性能向上に向けて
- Authors: Alloy Das, Sanket Biswas, Ayan Banerjee, Josep Llad\'os, Umapada Pal,
and Saumik Bhattacharya
- Abstract要約: 様々な領域への適応能力は、実環境にデプロイする際のシーンテキストスポッティングモデルに不可欠である。
本稿では,ドメイン適応型シーンテキストスポッティングの問題,すなわちマルチドメインソースデータを用いたモデルトレーニングについて検討する。
その結果,複数の領域にまたがるテキストスポッティングベンチマークにおいて,中間表現が有意な性能を発揮する可能性が明らかとなった。
- 参考スコア(独自算出の注目度): 15.513912470752041
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The adaptation capability to a wide range of domains is crucial for scene
text spotting models when deployed to real-world conditions. However, existing
state-of-the-art (SOTA) approaches usually incorporate scene text detection and
recognition simply by pretraining on natural scene text datasets, which do not
directly exploit the intermediate feature representations between multiple
domains. Here, we investigate the problem of domain-adaptive scene text
spotting, i.e., training a model on multi-domain source data such that it can
directly adapt to target domains rather than being specialized for a specific
domain or scenario. Further, we investigate a transformer baseline called
Swin-TESTR to focus on solving scene-text spotting for both regular and
arbitrary-shaped scene text along with an exhaustive evaluation. The results
clearly demonstrate the potential of intermediate representations to achieve
significant performance on text spotting benchmarks across multiple domains
(e.g. language, synth-to-real, and documents). both in terms of accuracy and
efficiency.
- Abstract(参考訳): 広い範囲のドメインへの適応能力は、実世界の状況にデプロイされるシーンのテキストスポッティングモデルに不可欠である。
しかし、既存のSOTA(State-of-the-art)アプローチは、通常、複数のドメイン間の中間的特徴表現を直接活用しない自然のシーンテキストデータセットを事前訓練することで、シーンテキストの検出と認識を組み込む。
本稿では,ドメイン適応型シーンテキストスポッティングの問題,すなわち,特定のドメインやシナリオに特化されるのではなく,ターゲットドメインに直接適応できるように,マルチドメインソースデータ上でモデルをトレーニングする。
さらに,正規文と任意文の両方のシーンテキストスポッティングの解決と,徹底的な評価を行うために,swain-testrと呼ばれるトランスフォーマのベースラインを調査した。
この結果は、複数のドメインにわたるテキストスポッティングベンチマーク(言語、合成-現実、文書など)において、中間表現が大きなパフォーマンスを達成する可能性を明確に示している。
正確性と効率の両面でです
関連論文リスト
- WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes [11.478236584340255]
雑音の多い水中のシーンに対して,UWT (Under-Water Text) と呼ばれるテキストスポッティング検証ベンチマークを提案する。
また,DA-TextSpotterと呼ばれる,高効率な超解像ベースのエンドツーエンド変換器ベースラインを設計する。
データセット、コード、事前トレーニングされたモデルは、受け入れ次第リリースされる。
論文 参考訳(メタデータ) (2023-10-01T03:27:41Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Domain Adaptive Scene Text Detection via Subcategorization [45.580559833129165]
ドメイン適応型シーンテキストの検出について検討する。
我々は、ネットワーク過度に適合し、ノイズの多い擬似ラベルを緩和する、サブカテゴリ対応の自己学習技術であるSCASTを設計する。
SCASTは、複数の公開ベンチマークで一貫して優れた検出性能を達成する。
論文 参考訳(メタデータ) (2022-12-01T09:15:43Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Contextual-Relation Consistent Domain Adaptation for Semantic
Segmentation [44.19436340246248]
本稿では,革新的局所文脈相関整合ドメイン適応手法を提案する。
グローバルレベルのアライメントにおいて、地域レベルのコンピテンシーを達成することを目的としている。
実験では, 最先端手法と比較して, セグメンテーション性能が優れていることを示した。
論文 参考訳(メタデータ) (2020-07-05T19:00:46Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。