Fugu-MT 論文翻訳(概要): Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes

論文の概要: Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes

arxiv url: http://arxiv.org/abs/2310.00558v2
Date: Fri, 6 Oct 2023 10:01:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 02:28:10.217947
Title: Diving into the Depths of Spotting Text in Multi-Domain Noisy Scenes
Title（参考訳）: マルチドメインノイズシーンにおけるテキストの深さへの拡散
Authors: Alloy Das, Sanket Biswas, Umapada Pal and Josep Llad\'os
Abstract要約: 雑音の多い水中のシーンに対して,UWT (Under-Water Text) と呼ばれるテキストスポッティング検証ベンチマークを提案する。また,DA-TextSpotterと呼ばれる,高効率な超解像ベースのエンドツーエンド変換器ベースラインを設計する。データセット、コード、事前トレーニングされたモデルは、受け入れ次第リリースされる。
参考スコア（独自算出の注目度）: 11.478236584340255
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: When used in a real-world noisy environment, the capacity to generalize to multiple domains is essential for any autonomous scene text spotting system. However, existing state-of-the-art methods employ pretraining and fine-tuning strategies on natural scene datasets, which do not exploit the feature interaction across other complex domains. In this work, we explore and investigate the problem of domain-agnostic scene text spotting, i.e., training a model on multi-domain source data such that it can directly generalize to target domains rather than being specialized for a specific domain or scenario. In this regard, we present the community a text spotting validation benchmark called Under-Water Text (UWT) for noisy underwater scenes to establish an important case study. Moreover, we also design an efficient super-resolution based end-to-end transformer baseline called DA-TextSpotter which achieves comparable or superior performance over existing text spotting architectures for both regular and arbitrary-shaped scene text spotting benchmarks in terms of both accuracy and model efficiency. The dataset, code and pre-trained models will be released upon acceptance.
Abstract（参考訳）: 実世界の騒々しい環境で使用する場合、複数のドメインに一般化する能力は、任意の自律的なシーンテキストスポッティングシステムに不可欠である。しかし、既存の最先端手法では、他の複雑なドメイン間での機能相互作用を活用できない自然シーンデータセットの事前訓練と微調整戦略を採用している。本研究では、特定のドメインやシナリオに特化するのではなく、対象とするドメインに直接一般化できるように、マルチドメインソースデータ上でモデルをトレーニングするという、ドメインに依存しないシーンテキストスポッティングの問題を調査し、検討する。そこで本稿では,水中の騒々しいシーンに対して,UWT(Under-Water Text)と呼ばれるテキストスポッティング検証ベンチマークを実施し,重要なケーススタディを確立する。さらに, DA-TextSpotter と呼ばれる高解像度のエンド・ツー・エンド・エンド・トランスフォーマーベースラインを設計し, 精度とモデル効率の両面から, 正規および任意の形状のシーンテキストスポッティングベンチマークにおいて, 既存のテキストスポッティングアーキテクチャと同等あるいは優れた性能を実現する。データセット、コード、事前トレーニングされたモデルは、受け入れ次第リリースされる。

関連論文リスト

GlocalCLIP: Object-agnostic Global-Local Prompt Learning for Zero-shot Anomaly Detection [5.530212768657544]
本研究では,グローバルおよびローカルなプロンプトの学習を改善するために,局所的なコントラスト学習を導入し,各領域の異常パターンを効果的に検出する。 The generalization performance of GlocalCLIP in ZSAD were demonstrated on 15 real-world datasets from the industrial and medical domain。
論文参考訳（メタデータ） (2024-11-09T05:22:13Z)
A Unified Data Augmentation Framework for Low-Resource Multi-Domain Dialogue Generation [52.0964459842176]
現在の最先端の対話システムは、広範なトレーニングデータセットに大きく依存している。我々はtextbfAMD$2$G と呼ばれる textbfMulti-textbfDomain textbfDialogue textbfGeneration のための新しいデータ textbfAugmentation フレームワークを提案する。 AMD$2$Gフレームワークは、データ拡張プロセスと、ドメインに依存しないトレーニングとドメイン適応トレーニングという2段階のトレーニングアプローチで構成されている。
論文参考訳（メタデータ） (2024-06-14T09:52:27Z)
Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文参考訳（メタデータ） (2023-12-21T07:49:27Z)
Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards Enhancing Text Spotting Performance [15.513912470752041]
様々な領域への適応能力は、実環境にデプロイする際のシーンテキストスポッティングモデルに不可欠である。本稿では,ドメイン適応型シーンテキストスポッティングの問題,すなわちマルチドメインソースデータを用いたモデルトレーニングについて検討する。その結果,複数の領域にまたがるテキストスポッティングベンチマークにおいて,中間表現が有意な性能を発揮する可能性が明らかとなった。
論文参考訳（メタデータ） (2023-10-02T06:08:01Z)
Domain Adaptive Scene Text Detection via Subcategorization [45.580559833129165]
ドメイン適応型シーンテキストの検出について検討する。我々は、ネットワーク過度に適合し、ノイズの多い擬似ラベルを緩和する、サブカテゴリ対応の自己学習技術であるSCASTを設計する。 SCASTは、複数の公開ベンチマークで一貫して優れた検出性能を達成する。
論文参考訳（メタデータ） (2022-12-01T09:15:43Z)
AFAN: Augmented Feature Alignment Network for Cross-Domain Object Detection [90.18752912204778]
オブジェクト検出のための教師なしドメイン適応は、多くの現実世界のアプリケーションにおいて難しい問題である。本稿では、中間領域画像生成とドメイン・アドバイザリー・トレーニングを統合した新しい機能アライメント・ネットワーク(AFAN)を提案する。提案手法は、類似および異種ドメイン適応の双方において、標準ベンチマークにおける最先端の手法よりも大幅に優れている。
論文参考訳（メタデータ） (2021-06-10T05:01:20Z)
Inferring Latent Domains for Unsupervised Deep Domain Adaptation [54.963823285456925]
Unsupervised Domain Adaptation (UDA)は、ラベル付きデータが利用できないターゲットドメインでモデルを学習する問題を指す。本稿では,視覚データセット中の潜在ドメインを自動的に発見することにより,udaの問題に対処する新しい深層アーキテクチャを提案する。提案手法を公開ベンチマークで評価し,最先端のドメイン適応手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-03-25T14:33:33Z)
FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。 FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文参考訳（メタデータ） (2020-12-31T17:15:09Z)
Contextual-Relation Consistent Domain Adaptation for Semantic Segmentation [44.19436340246248]
本稿では,革新的局所文脈相関整合ドメイン適応手法を提案する。グローバルレベルのアライメントにおいて、地域レベルのコンピテンシーを達成することを目的としている。実験では, 最先端手法と比較して, セグメンテーション性能が優れていることを示した。
論文参考訳（メタデータ） (2020-07-05T19:00:46Z)
Text Recognition in Real Scenarios with a Few Labeled Samples [55.07859517380136]
Scene Text Recognition (STR) はコンピュータビジョン分野におけるホットな研究テーマである。本稿では,数ショットの逆数列領域適応 (FASDA) を用いて構築シーケンスを適応する手法を提案する。我々のアプローチは、ソースドメインとターゲットドメインの間の文字レベルの混乱を最大化することができる。
論文参考訳（メタデータ） (2020-06-22T13:03:01Z)
Spatial Attention Pyramid Network for Unsupervised Domain Adaptation [66.75008386980869]
教師なし領域適応は様々なコンピュータビジョンタスクにおいて重要である。教師なし領域適応のための新しい空間注意ピラミッドネットワークを設計する。我々の手法は最先端の手法に対して大きなマージンで好適に機能する。
論文参考訳（メタデータ） (2020-03-29T09:03:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。