論文の概要: Character Region Attention For Text Spotting
- arxiv url: http://arxiv.org/abs/2007.09629v1
- Date: Sun, 19 Jul 2020 09:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 00:25:20.314507
- Title: Character Region Attention For Text Spotting
- Title(参考訳): テキストスポッティングのための文字領域アテンション
- Authors: Youngmin Baek, Seung Shin, Jeonghun Baek, Sungrae Park, Junyeop Lee,
Daehyun Nam, Hwalsuk Lee
- Abstract要約: シーンテキストスポッターは、テキスト検出および認識モジュールからなる。
典型的なアーキテクチャでは、検出モジュールと認識モジュールを別々のブランチに配置する。
これは、2つのモジュールが共通のサブタスクを共有しており、文字領域の場所を見つけるためである。
このアーキテクチャは、認識器内の検出出力を利用して、検出段階を通して認識損失を伝播することによって構成される。
- 参考スコア(独自算出の注目度): 18.713194210876136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A scene text spotter is composed of text detection and recognition modules.
Many studies have been conducted to unify these modules into an end-to-end
trainable model to achieve better performance. A typical architecture places
detection and recognition modules into separate branches, and a RoI pooling is
commonly used to let the branches share a visual feature. However, there still
exists a chance of establishing a more complimentary connection between the
modules when adopting recognizer that uses attention-based decoder and detector
that represents spatial information of the character regions. This is possible
since the two modules share a common sub-task which is to find the location of
the character regions. Based on the insight, we construct a tightly coupled
single pipeline model. This architecture is formed by utilizing detection
outputs in the recognizer and propagating the recognition loss through the
detection stage. The use of character score map helps the recognizer attend
better to the character center points, and the recognition loss propagation to
the detector module enhances the localization of the character regions. Also, a
strengthened sharing stage allows feature rectification and boundary
localization of arbitrary-shaped text regions. Extensive experiments
demonstrate state-of-the-art performance in publicly available straight and
curved benchmark dataset.
- Abstract(参考訳): シーンテキストスポッターは、テキスト検出および認識モジュールで構成されている。
これらのモジュールをエンドツーエンドのトレーニング可能なモデルに統合してパフォーマンスを向上させるために、多くの研究が行われている。
典型的なアーキテクチャでは、検出および認識モジュールを別々のブランチに配置する。
しかし、注意に基づくデコーダを使用する認識器と文字領域の空間情報を表す検出器を採用する場合、モジュール間のより相補的な接続を確立する可能性はまだ残っている。
これは、2つのモジュールが共通のサブタスクを共有しており、文字領域の場所を見つけるためである。
洞察に基づいて、密結合した単一パイプラインモデルを構築します。
このアーキテクチャは、認識器における検出出力を利用し、検出段階を通じて認識損失を伝搬する。
キャラクタスコアマップを使用することで、認識者がキャラクタセンタポイントによく出席し、検出モジュールへの認識損失伝播によりキャラクタ領域の局在が向上する。
また、強化された共有ステージにより、任意の形状のテキスト領域の特徴の整定と境界の定位が可能となる。
公開可能なストレートおよびカーブされたベンチマークデータセットでは、広範な実験が最先端のパフォーマンスを示している。
関連論文リスト
- LOGO: Video Text Spotting with Language Collaboration and Glyph Perception Model [20.007650672107566]
ビデオテキストスポッティング(VTS)は、ビデオ内のテキストインスタンスを同時にローカライズ、認識、追跡することを目的としている。
最近の方法では、最先端の画像テキストスポッターのゼロショット結果を直接追跡する。
特定のデータセット上の微調整トランスフォーマーベースのテキストスポッターにより、パフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2024-05-29T15:35:09Z) - Local Feature Matching Using Deep Learning: A Survey [19.322545965903608]
局所的な特徴マッチングは、画像検索、3D再構成、オブジェクト認識といった領域を含むコンピュータビジョンの領域において幅広い応用を享受する。
近年,深層学習モデルの導入により,局所的特徴マッチング手法の探究が盛んに行われている。
また,移動構造,リモートセンシング画像登録,医用画像登録などの多様な領域における局所的特徴マッチングの実践的応用についても検討した。
論文 参考訳(メタデータ) (2024-01-31T04:32:41Z) - Weakly-supervised deepfake localization in diffusion-generated images [4.548755617115687]
本稿では,Xception ネットワークをバックボーンアーキテクチャとして用いた弱教師付きローカライズ問題を提案する。
本研究では,(局所スコアに基づく)最良動作検出法は,データセットやジェネレータのミスマッチよりも,より緩やかな監視に敏感であることを示す。
論文 参考訳(メタデータ) (2023-11-08T10:27:36Z) - From Global to Local: Multi-scale Out-of-distribution Detection [129.37607313927458]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングプロセス中にラベルが見られない未知のデータを検出することを目的としている。
近年の表現学習の進歩により,距離に基づくOOD検出がもたらされる。
グローバルな視覚情報と局所的な情報の両方を活用する第1のフレームワークであるマルチスケールOOD検出(MODE)を提案する。
論文 参考訳(メタデータ) (2023-08-20T11:56:25Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。
本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。
完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:58Z) - PandA: Unsupervised Learning of Parts and Appearances in the Feature
Maps of GANs [34.145110544546114]
本研究では,空間的部分を表す因子とその外観を,完全に教師なしの方法で共同で発見するアーキテクチャに依存しないアプローチを提案する。
我々の手法は訓練時間の観点からはるかに効率的であり、最も重要なのは、より正確な局所制御を提供することである。
論文 参考訳(メタデータ) (2022-05-31T18:28:39Z) - Guide Local Feature Matching by Overlap Estimation [9.387323456222823]
OETRというTRansformerを用いた画像ペア上でのオーバーラップ推定手法を提案する。
OETRは、特徴相関の2段階のプロセスで重なり推定を行い、次いで重なり回帰を行う。
実験の結果,OETRは局所的特徴マッチング性能を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-02-18T07:11:36Z) - Point-Level Region Contrast for Object Detection Pre-Training [147.47349344401806]
本稿では,物体検出作業のための自己教師付き事前学習手法である点レベル領域コントラストを提案する。
提案手法は,異なる領域から個々の点対を直接抽出することにより,コントラスト学習を行う。
領域ごとの集約表現と比較すると,入力領域の品質の変化に対して,我々のアプローチはより堅牢である。
論文 参考訳(メタデータ) (2022-02-09T18:56:41Z) - Triggering Failures: Out-Of-Distribution detection by learning from
local adversarial attacks in Semantic Segmentation [76.2621758731288]
セグメンテーションにおけるアウト・オブ・ディストリビューション(OOD)オブジェクトの検出に取り組む。
私たちの主な貢献は、ObsNetと呼ばれる新しいOOD検出アーキテクチャであり、ローカル・アタック(LAA)に基づく専用トレーニングスキームと関連付けられています。
3つの異なるデータセットの文献の最近の10つの手法と比較して,速度と精度の両面で最高の性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-03T17:09:56Z) - Local Relation Learning for Face Forgery Detection [73.73130683091154]
局所的関係学習による顔の偽造検出の新たな視点を提案する。
具体的には,局所的な特徴間の類似度を測定するMPSM(Multi-scale Patch similarity Module)を提案する。
また、より包括的な局所特徴表現のために、RGBおよび周波数領域の情報を融合するRGB-Frequency Attention Module (RFAM)を提案する。
論文 参考訳(メタデータ) (2021-05-06T10:44:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。