論文の概要: SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily
Oriented Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2207.10256v1
- Date: Thu, 21 Jul 2022 01:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:58:03.110986
- Title: SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily
Oriented Scene Text Recognition
- Title(参考訳): SGBANet: 任意向きシーン音声認識のための意味的GANと平衡注意ネットワーク
- Authors: Dajian Zhong and Shujing Lyu and Palaiahnakote Shivakumara and Bing
Yin and Jiajia Wu and Umapada Pal and Yue Lu
- Abstract要約: 本稿では,シーン画像中のテキストを認識するためのセマンティックGAN and Balanced Attention Network (SGBANet)を提案する。
提案手法はまずセマンティックGANを用いて単純な意味的特徴を生成し,次にバランス注意モジュールを用いてシーンテキストを認識する。
- 参考スコア(独自算出の注目度): 26.571128345615108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition is a challenging task due to the complex backgrounds
and diverse variations of text instances. In this paper, we propose a novel
Semantic GAN and Balanced Attention Network (SGBANet) to recognize the texts in
scene images. The proposed method first generates the simple semantic feature
using Semantic GAN and then recognizes the scene text with the Balanced
Attention Module. The Semantic GAN aims to align the semantic feature
distribution between the support domain and target domain. Different from the
conventional image-to-image translation methods that perform at the image
level, the Semantic GAN performs the generation and discrimination on the
semantic level with the Semantic Generator Module (SGM) and Semantic
Discriminator Module (SDM). For target images (scene text images), the Semantic
Generator Module generates simple semantic features that share the same feature
distribution with support images (clear text images). The Semantic
Discriminator Module is used to distinguish the semantic features between the
support domain and target domain. In addition, a Balanced Attention Module is
designed to alleviate the problem of attention drift. The Balanced Attention
Module first learns a balancing parameter based on the visual glimpse vector
and semantic glimpse vector, and then performs the balancing operation for
obtaining a balanced glimpse vector. Experiments on six benchmarks, including
regular datasets, i.e., IIIT5K, SVT, ICDAR2013, and irregular datasets, i.e.,
ICDAR2015, SVTP, CUTE80, validate the effectiveness of our proposed method.
- Abstract(参考訳): シーンのテキスト認識は、複雑な背景と様々なテキストインスタンスがあるため、難しい課題である。
本稿では,シーン画像中のテキストを認識するためのセマンティックGAN and Balanced Attention Network (SGBANet)を提案する。
提案手法はまずセマンティックGANを用いて単純な意味的特徴を生成し,次にバランス注意モジュールを用いてシーンテキストを認識する。
Semantic GANは、サポートドメインとターゲットドメインのセマンティックな特徴分布を調整することを目的としている。
画像レベルで実行される従来の画像と画像の変換方法とは異なり、セマンティックGANはセマンティックジェネレータモジュール(SGM)とセマンティック識別モジュール(SDM)を用いてセマンティックレベルでの生成と識別を行う。
ターゲット画像(シーンテキスト画像)に対して、セマンティックジェネレータモジュールは同じ特徴分布とサポート画像(クリアテキスト画像)を共有する単純な意味的特徴を生成する。
Semantic Discriminator Moduleは、サポートドメインとターゲットドメインのセマンティックな特徴を区別するために使用される。
さらに、注意流の問題を軽減するために、バランスド・アテンション・モジュールが設計されている。
Balanced Attention Moduleはまず、視覚視線ベクトルと意味視線ベクトルとに基づいてバランスパラメータを学習し、その後、平衡視線ベクトルを得るためのバランス操作を実行する。
正規データセット,すなわちIIIT5K,SVT,ICDAR2013,および不規則データセット,すなわちICDAR2015,SVTP,CUTE80を含む6つのベンチマーク実験により,提案手法の有効性が検証された。
関連論文リスト
- Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Unsupervised Domain Adaptation for Semantic Segmentation using One-shot
Image-to-Image Translation via Latent Representation Mixing [9.118706387430883]
超高解像度画像のセマンティックセグメンテーションのための新しい教師なし領域適応法を提案する。
潜在コンテンツ表現をドメイン間で混合するエンコーダ・デコーダの原理に基づいて,画像から画像への変換パラダイムを提案する。
都市間比較実験により,提案手法は最先端領域適応法より優れていることが示された。
論文 参考訳(メタデータ) (2022-12-07T18:16:17Z) - Rethinking Alignment and Uniformity in Unsupervised Image Semantic
Segmentation [5.00167841640205]
教師なしのイメージセマンティックセグメンテーションは、外部の監督なしに、低レベルの視覚特徴とセマンティックレベルの表現とを一致させることを目的としている。
本稿では,UISSモデルにおける特徴アライメントと特徴均一性の観点から,重要な特性について考察する。
本稿では,セマンティック・アテンション・ネットワーク(SAN)と呼ばれるロバストなネットワークを提案し,セマンティック・アテンション(SEAT)というモジュールを動的に生成する手法を提案する。
論文 参考訳(メタデータ) (2022-11-26T08:43:12Z) - Target-oriented Sentiment Classification with Sequential Cross-modal
Semantic Graph [27.77392307623526]
マルチモーダル・アスペクトベース感情分類(マルチモーダル・アスペクトベース感情分類、英: Multi-modal aspect-based sentiment classification、MABSC)は、文と画像に言及された対象エンティティの感情を分類するタスクである。
以前の手法では、画像とテキストの微妙なセマンティックな関連を考慮できなかった。
本稿では,シーケンシャルなクロスモーダルなセマンティックグラフを用いたエンコーダ・デコーダの感情分類フレームワークであるSeqCSGを提案する。
論文 参考訳(メタデータ) (2022-08-19T16:04:29Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - HYLDA: End-to-end Hybrid Learning Domain Adaptation for LiDAR Semantic
Segmentation [13.87939140266266]
完全ラベル付きソースデータセットと少数のラベルしか持たないターゲットデータセットを用いて,LiDARセマンティックセマンティックセマンティクスネットワークをトレーニングする問題に対処する。
我々は、新しい画像から画像への変換エンジンを開発し、それをLiDARセマンティックセマンティックセグメンテーションネットワークと組み合わせることで、HYLDAと呼ばれる統合ドメイン適応アーキテクチャを実現する。
論文 参考訳(メタデータ) (2022-01-14T18:13:09Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。