論文の概要: Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes
- arxiv url: http://arxiv.org/abs/2310.00558v3
- Date: Sat, 17 Feb 2024 14:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 05:47:25.810310
- Title: Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes
- Title(参考訳): マルチドメインノイズシーンにおけるテキストの深さへの拡散
- Authors: Alloy Das, Sanket Biswas, Umapada Pal and Josep Llad\'os
- Abstract要約: 雑音の多い水中のシーンに対して,UWT (Under-Water Text) と呼ばれるテキストスポッティング検証ベンチマークを提案する。
また,DA-TextSpotterと呼ばれる,高効率な超解像ベースのエンドツーエンド変換器ベースラインを設計する。
データセット、コード、事前トレーニングされたモデルは、受け入れ次第リリースされる。
- 参考スコア(独自算出の注目度): 11.478236584340255
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When used in a real-world noisy environment, the capacity to generalize to
multiple domains is essential for any autonomous scene text spotting system.
However, existing state-of-the-art methods employ pretraining and fine-tuning
strategies on natural scene datasets, which do not exploit the feature
interaction across other complex domains. In this work, we explore and
investigate the problem of domain-agnostic scene text spotting, i.e., training
a model on multi-domain source data such that it can directly generalize to
target domains rather than being specialized for a specific domain or scenario.
In this regard, we present the community a text spotting validation benchmark
called Under-Water Text (UWT) for noisy underwater scenes to establish an
important case study. Moreover, we also design an efficient super-resolution
based end-to-end transformer baseline called DA-TextSpotter which achieves
comparable or superior performance over existing text spotting architectures
for both regular and arbitrary-shaped scene text spotting benchmarks in terms
of both accuracy and model efficiency. The dataset, code and pre-trained models
will be released upon acceptance.
- Abstract(参考訳): 実世界の騒々しい環境で使用する場合、複数のドメインに一般化する能力は、任意の自律的なシーンテキストスポッティングシステムに不可欠である。
しかし、既存の最先端手法では、他の複雑なドメイン間での機能相互作用を活用できない自然シーンデータセットの事前訓練と微調整戦略を採用している。
本研究では、特定のドメインやシナリオに特化するのではなく、対象とするドメインに直接一般化できるように、マルチドメインソースデータ上でモデルをトレーニングするという、ドメインに依存しないシーンテキストスポッティングの問題を調査し、検討する。
そこで本稿では,水中の騒々しいシーンに対して,UWT(Under-Water Text)と呼ばれるテキストスポッティング検証ベンチマークを実施し,重要なケーススタディを確立する。
さらに, DA-TextSpotter と呼ばれる高解像度のエンド・ツー・エンド・エンド・トランスフォーマーベースラインを設計し, 精度とモデル効率の両面から, 正規および任意の形状のシーンテキストスポッティングベンチマークにおいて, 既存のテキストスポッティングアーキテクチャと同等あるいは優れた性能を実現する。
データセット、コード、事前トレーニングされたモデルは、受け入れ次第リリースされる。
関連論文リスト
- GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
本研究では,グローバルおよびローカルなプロンプトの学習を改善するために,局所的なコントラスト学習を導入し,各領域の異常パターンを効果的に検出する。
The generalization performance of GlocalCLIP in ZSAD were demonstrated on 15 real-world datasets from the industrial and medical domain。
論文 参考訳(メタデータ) (2024-11-09T05:22:13Z) - A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [52.0964459842176]
現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。
我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。
AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文 参考訳(メタデータ) (2024-06-14T09:52:27Z) - Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards
Enhancing Text Spotting Performance [15.513912470752041]
様々な領域への適応能力は、実環境にデプロイする際のシーンテキストスポッティングモデルに不可欠である。
本稿では,ドメイン適応型シーンテキストスポッティングの問題,すなわちマルチドメインソースデータを用いたモデルトレーニングについて検討する。
その結果,複数の領域にまたがるテキストスポッティングベンチマークにおいて,中間表現が有意な性能を発揮する可能性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-02T06:08:01Z) - Domain Adaptive Scene Text Detection via Subcategorization [45.580559833129165]
ドメイン適応型シーンテキストの検出について検討する。
我々は、ネットワーク過度に適合し、ノイズの多い擬似ラベルを緩和する、サブカテゴリ対応の自己学習技術であるSCASTを設計する。
SCASTは、複数の公開ベンチマークで一貫して優れた検出性能を達成する。
論文 参考訳(メタデータ) (2022-12-01T09:15:43Z) - AFAN: Augmented Feature Alignment Network for Cross-Domain Object
Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。
本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。
提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2021-06-10T05:01:20Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。
本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。
我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文 参考訳(メタデータ) (2020-06-22T13:03:01Z) - Spatial Attention Pyramid Network for Unsupervised Domain Adaptation [66.75008386980869]
教師なし領域適応は様々なコンピュータビジョンタスクにおいて重要である。
教師なし領域適応のための新しい空間注意ピラミッドネットワークを設計する。
我々の手法は最先端の手法に対して大きなマージンで好適に機能する。
論文 参考訳(メタデータ) (2020-03-29T09:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。