論文の概要: Gaussian Constrained Attention Network for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2010.09169v1
- Date: Mon, 19 Oct 2020 01:55:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 21:59:00.806970
- Title: Gaussian Constrained Attention Network for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のためのガウス制約注意ネットワーク
- Authors: Zhi Qiao, Xugong Qin, Yu Zhou, Fei Yang, Weiping Wang
- Abstract要約: 既存の注意機構は注意拡散の問題に直面しており、モデルが特定の特徴領域に焦点を絞らない可能性がある。
本稿では,新しいガウス制約リファインメントモジュールを組み込んだ2次元アテンションベース手法を提案する。
このように、注意重みはより集中し、注意に基づく認識ネットワークはより良いパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 16.485898019983797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition has been a hot topic in computer vision. Recent
methods adopt the attention mechanism for sequence prediction which achieve
convincing results. However, we argue that the existing attention mechanism
faces the problem of attention diffusion, in which the model may not focus on a
certain character area. In this paper, we propose Gaussian Constrained
Attention Network to deal with this problem. It is a 2D attention-based method
integrated with a novel Gaussian Constrained Refinement Module, which predicts
an additional Gaussian mask to refine the attention weights. Different from
adopting an additional supervision on the attention weights simply, our
proposed method introduces an explicit refinement. In this way, the attention
weights will be more concentrated and the attention-based recognition network
achieves better performance. The proposed Gaussian Constrained Refinement
Module is flexible and can be applied to existing attention-based methods
directly. The experiments on several benchmark datasets demonstrate the
effectiveness of our proposed method. Our code has been available at
https://github.com/Pay20Y/GCAN.
- Abstract(参考訳): シーンテキスト認識はコンピュータビジョンにおいてホットな話題となっている。
近年の手法では、説得力のある結果が得られるシーケンス予測の注意機構が採用されている。
しかし,既存の注意機構は注意拡散の問題に直面しており,モデルが特定のキャラクタ領域に焦点を合わせない可能性がある。
本稿では,この問題に対処するためにガウス制約付き注意ネットワークを提案する。
これは2次元の注意に基づく手法であり、新しいガウス制約リファインメントモジュールと統合され、ガウスマスクを追加して注意重みを洗練させる。
注意重みに対する追加の監督を単純に行うのと異なり,提案手法は明示的な改良を導入する。
このように、注意重みはより集中し、注意に基づく認識ネットワークはより良いパフォーマンスを達成する。
提案するガウス制約リファインメントモジュールは柔軟であり、既存の注意に基づく手法に直接適用することができる。
いくつかのベンチマークデータセットに対する実験により,提案手法の有効性が示された。
私たちのコードはhttps://github.com/pay20y/gcan.comで利用可能です。
関連論文リスト
- Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Towards Robust Semantic Segmentation against Patch-based Attack via Attention Refinement [68.31147013783387]
我々は,アテンション機構がパッチベースの敵攻撃に弱いことを観察した。
本稿では,意味的セグメンテーションモデルの堅牢性を改善するために,ロバスト注意機構(RAM)を提案する。
論文 参考訳(メタデータ) (2024-01-03T13:58:35Z) - RFAConv: Innovating Spatial Attention and Standard Convolutional Operation [7.2646541547165056]
RFA(Receptive-Field Attention)と呼ばれる新しい注意機構を提案する。
RFAは受容場空間的特徴に重点を置いているが、大規模な畳み込みカーネルに対して効果的な注意重みを与える。
計算コストとパラメータのほとんど無視可能な増加を提供すると同時に、ネットワーク性能も大幅に向上する。
論文 参考訳(メタデータ) (2023-04-06T16:21:56Z) - Where to Look: A Unified Attention Model for Visual Recognition with
Reinforcement Learning [5.247711598719703]
視覚的注意を繰り返すために,トップダウンとボトムアップを一体化することを提案する。
我々のモデルは、画像ピラミッドとQラーニングを利用して、トップダウンアテンションメカニズムにおける関心領域を選択する。
我々は、エンドツーエンドの強化学習フレームワークでモデルをトレーニングし、視覚的分類タスクにおける手法の評価を行う。
論文 参考訳(メタデータ) (2021-11-13T18:44:50Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - An Attention Module for Convolutional Neural Networks [5.333582981327498]
本稿では,AW-畳み込みを開発することで,畳み込みニューラルネットワークのためのアテンションモジュールを提案する。
画像分類とオブジェクト検出タスクのための複数のデータセットの実験により,提案した注目モジュールの有効性が示された。
論文 参考訳(メタデータ) (2021-08-18T15:36:18Z) - Bayesian Attention Belief Networks [59.183311769616466]
注意に基づくニューラルネットワークは、幅広いタスクにおいて最先端の結果を得た。
本稿では,非正規化注意重みをモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークについて紹介する。
提案手法は, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃において, 決定論的注意と最先端の注意よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-09T17:46:22Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。