論文の概要: Visual-Semantic Transformer for Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2112.00948v1
- Date: Thu, 2 Dec 2021 02:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 15:33:54.503001
- Title: Visual-Semantic Transformer for Scene Text Recognition
- Title(参考訳): シーンテキスト認識のための視覚意味変換器
- Authors: Xin Tang and Yongquan Lai and Ying Liu and Yuanyuan Fu and Rui Fang
- Abstract要約: 視覚意味変換器(VST)と協調して意味情報と視覚情報をモデル化することを提案する。
VSTはまず、視覚特徴マップから一次意味情報を明示的に抽出する。
意味情報は視覚特徴マップと結合され、擬似マルチドメインシーケンスを形成する。
- 参考スコア(独自算出の注目度): 5.323568551229187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modeling semantic information is helpful for scene text recognition. In this
work, we propose to model semantic and visual information jointly with a
Visual-Semantic Transformer (VST). The VST first explicitly extracts primary
semantic information from visual feature maps with a transformer module and a
primary visual-semantic alignment module. The semantic information is then
joined with the visual feature maps (viewed as a sequence) to form a pseudo
multi-domain sequence combining visual and semantic information, which is
subsequently fed into an transformer-based interaction module to enable
learning of interactions between visual and semantic features. In this way, the
visual features can be enhanced by the semantic information and vice versus.
The enhanced version of visual features are further decoded by a secondary
visual-semantic alignment module which shares weights with the primary one.
Finally, the decoded visual features and the enhanced semantic features are
jointly processed by the third transformer module obtaining the final text
prediction. Experiments on seven public benchmarks including regular/ irregular
text recognition datasets verifies the effectiveness our proposed model,
reaching state of the art on four of the seven benchmarks.
- Abstract(参考訳): 意味情報のモデル化はシーンテキスト認識に有用である。
本研究では,VST(Visual-Semantic Transformer)と協調して意味情報と視覚情報をモデル化することを提案する。
VSTは、まず、トランスフォーマーモジュールと一次視覚意味アライメントモジュールで視覚特徴マップから一次意味情報を明示的に抽出する。
意味情報は、視覚特徴マップ(シーケンスとして表示)と結合され、視覚情報と意味情報を組み合わせた疑似多領域シーケンスを形成し、その後、視覚特徴と意味特徴の間の相互作用の学習を可能にするトランスフォーマティブベースのインタラクションモジュールに供給される。
このように、視覚的特徴は意味情報によって強化され、その逆も可能である。
視覚的特徴の強化バージョンは、プライマリと重みを共有する二次的な視覚的意味アライメントモジュールによってさらにデコードされる。
最後に、デコードされた視覚特徴と拡張された意味特徴を第3変圧器モジュールで共同処理して最終テキスト予測を行う。
正規/不規則なテキスト認識データセットを含む7つの公開ベンチマークの実験は、提案したモデルの有効性を検証する。
関連論文リスト
- Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning [56.16593809016167]
本稿では,視覚・視覚の正確なマッピングを学習するために,ジェネレータを高速化するビジュアル拡張動的セマンティックプロトタイプ(VADS)を提案する。
VADSは2つのモジュールから構成される:(1)視覚認識ドメイン知識学習モジュール(VDKL)は視覚特徴の局所バイアスとグローバル先行を学習し、純粋なガウス雑音を置き換え、よりリッチな事前ノイズ情報を提供する;(2)視覚指向セマンティックアップダクションモジュール(VOSU)は、サンプルの視覚表現に従ってセマンティックプロトタイプを更新する。
論文 参考訳(メタデータ) (2024-04-23T07:39:09Z) - Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - Progressive Semantic-Visual Mutual Adaption for Generalized Zero-Shot
Learning [74.48337375174297]
一般化ゼロショット学習(GZSL)は、目に見えない領域から移行した知識によって、見えないカテゴリを特定する。
プロトタイプと視覚特徴の対応性を段階的にモデル化するために,デュアルセマンティック・ビジュアル・トランスフォーマーモジュール(DSVTM)をデプロイする。
DSVTMは、インスタンス中心のプロトタイプを学習して異なる画像に適応させる、インスタンス駆動セマンティックエンコーダを考案した。
論文 参考訳(メタデータ) (2023-03-27T15:21:43Z) - VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video
Paragraph Captioning [19.73126931526359]
ビデオパラグラフキャプションは、コヒーレントなストーリーテリングにおいて、複数の時間的イベント位置を持つ、トリミングされていないビデオのマルチ文記述を作成することを目的としている。
まず,視覚言語(VL)機能を提案する。提案するVL機能では,このシーンは (i) グローバルな視覚環境, (ii) ローカルな視覚メインエージェント, (iii) 言語シーン要素を含む3つのモードでモデル化される。
次に自動回帰変換器(TinT)を導入し、ビデオ内のイントラコンテンツとイントラコンテンツ間のセマンティックコヒーレンスを同時にキャプチャする。
論文 参考訳(メタデータ) (2022-11-28T07:39:20Z) - TransZero++: Cross Attribute-Guided Transformer for Zero-Shot Learning [119.43299939907685]
ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラス認識問題に取り組む。
既存の注意に基づくモデルは、一方向の注意のみを用いることで、単一の画像で劣る領域の特徴を学習するのに苦労している。
視覚的特徴を洗練し,属性の正確なローカライゼーションを学習するために,TransZero++と呼ばれるクロス属性誘導型トランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T05:49:51Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z) - Multimodal Incremental Transformer with Visual Grounding for Visual
Dialogue Generation [25.57530524167637]
視覚的対話は、視覚環境を理解することに基づいて、一連の一貫性のある質問に答える必要がある。
ビジュアルグラウンドティングは、テキストエンティティによってガイドされたイメージ内の関連オブジェクトを明示的に特定することを目的としている。
マルチモーダルインクリメンタルトランスフォーマーは、対話の順序に応じてステップごとに、多ターン対話履歴と視覚シーンのステップとをエンコードし、コンテキスト的かつ視覚的に一貫性のある応答を生成する。
論文 参考訳(メタデータ) (2021-09-17T11:39:29Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Semantic Disentangling Generalized Zero-Shot Learning [50.259058462272435]
Generalized Zero-Shot Learning (GZSL)は、目に見えないカテゴリと見えないカテゴリの両方から画像を認識することを目的としている。
本稿では,エンコーダ・デコーダアーキテクチャに基づく新しい特徴分割手法を提案する。
提案モデルは,視像の固有特徴をキャプチャする品質意味一貫性表現を蒸留することを目的としている。
論文 参考訳(メタデータ) (2021-01-20T05:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。