論文の概要: SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily
Oriented Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2207.10256v1
- Date: Thu, 21 Jul 2022 01:41:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 12:58:03.110986
- Title: SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily
Oriented Scene Text Recognition
- Title(参考訳): SGBANet: 任意向きシーン音声認識のための意味的GANと平衡注意ネットワーク
- Authors: Dajian Zhong and Shujing Lyu and Palaiahnakote Shivakumara and Bing
Yin and Jiajia Wu and Umapada Pal and Yue Lu
- Abstract要約: 本稿では,シーン画像中のテキストを認識するためのセマンティックGAN and Balanced Attention Network (SGBANet)を提案する。
提案手法はまずセマンティックGANを用いて単純な意味的特徴を生成し,次にバランス注意モジュールを用いてシーンテキストを認識する。
- 参考スコア(独自算出の注目度): 26.571128345615108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition is a challenging task due to the complex backgrounds
and diverse variations of text instances. In this paper, we propose a novel
Semantic GAN and Balanced Attention Network (SGBANet) to recognize the texts in
scene images. The proposed method first generates the simple semantic feature
using Semantic GAN and then recognizes the scene text with the Balanced
Attention Module. The Semantic GAN aims to align the semantic feature
distribution between the support domain and target domain. Different from the
conventional image-to-image translation methods that perform at the image
level, the Semantic GAN performs the generation and discrimination on the
semantic level with the Semantic Generator Module (SGM) and Semantic
Discriminator Module (SDM). For target images (scene text images), the Semantic
Generator Module generates simple semantic features that share the same feature
distribution with support images (clear text images). The Semantic
Discriminator Module is used to distinguish the semantic features between the
support domain and target domain. In addition, a Balanced Attention Module is
designed to alleviate the problem of attention drift. The Balanced Attention
Module first learns a balancing parameter based on the visual glimpse vector
and semantic glimpse vector, and then performs the balancing operation for
obtaining a balanced glimpse vector. Experiments on six benchmarks, including
regular datasets, i.e., IIIT5K, SVT, ICDAR2013, and irregular datasets, i.e.,
ICDAR2015, SVTP, CUTE80, validate the effectiveness of our proposed method.
- Abstract(参考訳): シーンのテキスト認識は、複雑な背景と様々なテキストインスタンスがあるため、難しい課題である。
本稿では,シーン画像中のテキストを認識するためのセマンティックGAN and Balanced Attention Network (SGBANet)を提案する。
提案手法はまずセマンティックGANを用いて単純な意味的特徴を生成し,次にバランス注意モジュールを用いてシーンテキストを認識する。
Semantic GANは、サポートドメインとターゲットドメインのセマンティックな特徴分布を調整することを目的としている。
画像レベルで実行される従来の画像と画像の変換方法とは異なり、セマンティックGANはセマンティックジェネレータモジュール(SGM)とセマンティック識別モジュール(SDM)を用いてセマンティックレベルでの生成と識別を行う。
ターゲット画像(シーンテキスト画像)に対して、セマンティックジェネレータモジュールは同じ特徴分布とサポート画像(クリアテキスト画像)を共有する単純な意味的特徴を生成する。
Semantic Discriminator Moduleは、サポートドメインとターゲットドメインのセマンティックな特徴を区別するために使用される。
さらに、注意流の問題を軽減するために、バランスド・アテンション・モジュールが設計されている。
Balanced Attention Moduleはまず、視覚視線ベクトルと意味視線ベクトルとに基づいてバランスパラメータを学習し、その後、平衡視線ベクトルを得るためのバランス操作を実行する。
正規データセット,すなわちIIIT5K,SVT,ICDAR2013,および不規則データセット,すなわちICDAR2015,SVTP,CUTE80を含む6つのベンチマーク実験により,提案手法の有効性が検証された。
関連論文リスト
- Boosting Weakly-Supervised Referring Image Segmentation via Progressive Comprehension [40.21084218601082]
本稿では、画像とテキストのペアから直接ターゲットのローカライゼーションを学習する、困難な設定に焦点を当てる。
そこで本研究では,対象対象対象の局所化にターゲット関連テキストキューを活用する新しいプログレッシブネットワーク(PCNet)を提案する。
本手法は3つのベンチマークでSOTA法より優れている。
論文 参考訳(メタデータ) (2024-10-02T13:30:32Z) - Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation [27.95875467352853]
本稿では,視覚的および言語的表現を完全に活用する新たな参照リモートセンシング画像分割手法であるFIANetを提案する。
提案した細粒度画像テキストアライメントモジュール(FIAM)は、入力画像と対応するテキストの特徴を同時に活用する。
本稿では,RefSegRSとRRSIS-Dを含む2つのリモートセンシングデータセットに対する提案手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:45:32Z) - Spatial Semantic Recurrent Mining for Referring Image Segmentation [63.34997546393106]
高品質なクロスモーダリティ融合を実現するために,Stextsuperscript2RMを提案する。
これは、言語特徴の分散、空間的意味的再帰的分離、パーセマンティック・セマンティック・バランシングという三部作の作業戦略に従う。
提案手法は他の最先端アルゴリズムに対して好適に機能する。
論文 参考訳(メタデータ) (2024-05-15T00:17:48Z) - Adaptive Prompt Learning with Negative Textual Semantics and Uncertainty Modeling for Universal Multi-Source Domain Adaptation [15.773845409601389]
Universal Multi-source Domain Adaptation (UniMDA)は、複数のラベル付きソースドメインからの知識をラベルなしターゲットドメインに転送する。
既存のソリューションでは、未知のサンプルを検出するための画像特徴の発掘に重点を置いており、テキストセマンティクスに含まれる豊富な情報を無視している。
本論文では,UniMDA分類タスクのテキスト意味論と不確実性モデリング手法を用いた適応型プロンプト学習を提案する。
論文 参考訳(メタデータ) (2024-04-23T02:54:12Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - Unsupervised Domain Adaptation for Semantic Segmentation using One-shot
Image-to-Image Translation via Latent Representation Mixing [9.118706387430883]
超高解像度画像のセマンティックセグメンテーションのための新しい教師なし領域適応法を提案する。
潜在コンテンツ表現をドメイン間で混合するエンコーダ・デコーダの原理に基づいて,画像から画像への変換パラダイムを提案する。
都市間比較実験により,提案手法は最先端領域適応法より優れていることが示された。
論文 参考訳(メタデータ) (2022-12-07T18:16:17Z) - Target-oriented Sentiment Classification with Sequential Cross-modal
Semantic Graph [27.77392307623526]
マルチモーダル・アスペクトベース感情分類(マルチモーダル・アスペクトベース感情分類、英: Multi-modal aspect-based sentiment classification、MABSC)は、文と画像に言及された対象エンティティの感情を分類するタスクである。
以前の手法では、画像とテキストの微妙なセマンティックな関連を考慮できなかった。
本稿では,シーケンシャルなクロスモーダルなセマンティックグラフを用いたエンコーダ・デコーダの感情分類フレームワークであるSeqCSGを提案する。
論文 参考訳(メタデータ) (2022-08-19T16:04:29Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。