論文の概要: Multi-modal Text Recognition Networks: Interactive Enhancements between
Visual and Semantic Features
- arxiv url: http://arxiv.org/abs/2111.15263v1
- Date: Tue, 30 Nov 2021 10:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 23:10:19.188853
- Title: Multi-modal Text Recognition Networks: Interactive Enhancements between
Visual and Semantic Features
- Title(参考訳): マルチモーダルテキスト認識ネットワーク:視覚的特徴と意味的特徴の相互強化
- Authors: Byeonghu Na, Yoonsik Kim, Sungrae Park
- Abstract要約: 本稿では,MATRN(Multi-Almod Text Recognition Network)と呼ばれる新しい手法を提案する。
MATRNは視覚的特徴対と意味的特徴対を特定し、空間情報を意味的特徴にエンコードする。
実験の結果,MATRNは7つのベンチマークで最先端のパフォーマンスを達成できた。
- 参考スコア(独自算出の注目度): 11.48760300147023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linguistic knowledge has brought great benefits to scene text recognition by
providing semantics to refine character sequences. However, since linguistic
knowledge has been applied individually on the output sequence, previous
methods have not fully utilized the semantics to understand visual clues for
text recognition. This paper introduces a novel method, called Multi-modAl Text
Recognition Network (MATRN), that enables interactions between visual and
semantic features for better recognition performances. Specifically, MATRN
identifies visual and semantic feature pairs and encodes spatial information
into semantic features. Based on the spatial encoding, visual and semantic
features are enhanced by referring to related features in the other modality.
Furthermore, MATRN stimulates combining semantic features into visual features
by hiding visual clues related to the character in the training phase. Our
experiments demonstrate that MATRN achieves state-of-the-art performances on
seven benchmarks with large margins, while naive combinations of two modalities
show marginal improvements. Further ablative studies prove the effectiveness of
our proposed components. Our implementation will be publicly available.
- Abstract(参考訳): 言語知識は、文字列を洗練するための意味論を提供することで、シーンのテキスト認識に大きな利益をもたらした。
しかし、言語知識は出力シーケンスに個別に適用されているため、従来の手法ではテキスト認識の視覚的手がかりを理解するためにセマンティクスを十分に活用していなかった。
本稿では,視覚的特徴量と意味的特徴量とのインタラクションを可能にするマルチモーダルテキスト認識ネットワーク(matrn)と呼ばれる新しい手法を提案する。
具体的には、MATRNは視覚的特徴対と意味的特徴対を特定し、空間情報を意味的特徴にエンコードする。
空間符号化に基づいて、他のモダリティの関連特徴を参照することにより、視覚的特徴と意味的特徴が強化される。
さらに、MATRNは、トレーニングフェーズにおける文字に関連する視覚的手がかりを隠すことで、意味的特徴と視覚的特徴との結合を刺激する。
実験の結果,MATRNは7つのベンチマークにおいて高いマージンを持つ最先端性能を達成し,一方2つのモダリティの組み合わせは有意な改善を示した。
さらなるアブレーション研究により,提案する成分の有効性が証明された。
私たちの実装は公開されます。
関連論文リスト
- Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - PVLR: Prompt-driven Visual-Linguistic Representation Learning for
Multi-Label Image Recognition [47.11517266162346]
本稿では,言語的モダリティの能力をよりよく活用するための,プロンプト駆動型視覚言語表現学習フレームワークを提案する。
従来の一方向融合とは対照的に,テキストと視覚的特徴の双方向相互作用を可能にするDMA(Dual-Modal Attention)を導入する。
論文 参考訳(メタデータ) (2024-01-31T14:39:11Z) - CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition [22.13675752628]
本稿では,不規則なシーンテキスト認識のための新しいクロスモーダル融合ネットワーク(CMFN)を提案する。
CMFNは、位置自己拡張エンコーダ、視覚認識枝、反復意味認識枝から構成される。
実験により,提案したCMFNアルゴリズムは最先端のアルゴリズムに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-01-18T15:05:57Z) - CLIP-Driven Semantic Discovery Network for Visible-Infrared Person
Re-Identification [39.262536758248245]
モダリティ間の同一性マッチングは、VIReIDにおいて重要な課題である。
本稿では,CLIP-Driven Semantic Discovery Network(CSDN)を提案する。
論文 参考訳(メタデータ) (2024-01-11T10:20:13Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。