論文の概要: Multi-modal Text Recognition Networks: Interactive Enhancements between
Visual and Semantic Features
- arxiv url: http://arxiv.org/abs/2111.15263v1
- Date: Tue, 30 Nov 2021 10:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 23:10:19.188853
- Title: Multi-modal Text Recognition Networks: Interactive Enhancements between
Visual and Semantic Features
- Title(参考訳): マルチモーダルテキスト認識ネットワーク:視覚的特徴と意味的特徴の相互強化
- Authors: Byeonghu Na, Yoonsik Kim, Sungrae Park
- Abstract要約: 本稿では,MATRN(Multi-Almod Text Recognition Network)と呼ばれる新しい手法を提案する。
MATRNは視覚的特徴対と意味的特徴対を特定し、空間情報を意味的特徴にエンコードする。
実験の結果,MATRNは7つのベンチマークで最先端のパフォーマンスを達成できた。
- 参考スコア(独自算出の注目度): 11.48760300147023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linguistic knowledge has brought great benefits to scene text recognition by
providing semantics to refine character sequences. However, since linguistic
knowledge has been applied individually on the output sequence, previous
methods have not fully utilized the semantics to understand visual clues for
text recognition. This paper introduces a novel method, called Multi-modAl Text
Recognition Network (MATRN), that enables interactions between visual and
semantic features for better recognition performances. Specifically, MATRN
identifies visual and semantic feature pairs and encodes spatial information
into semantic features. Based on the spatial encoding, visual and semantic
features are enhanced by referring to related features in the other modality.
Furthermore, MATRN stimulates combining semantic features into visual features
by hiding visual clues related to the character in the training phase. Our
experiments demonstrate that MATRN achieves state-of-the-art performances on
seven benchmarks with large margins, while naive combinations of two modalities
show marginal improvements. Further ablative studies prove the effectiveness of
our proposed components. Our implementation will be publicly available.
- Abstract(参考訳): 言語知識は、文字列を洗練するための意味論を提供することで、シーンのテキスト認識に大きな利益をもたらした。
しかし、言語知識は出力シーケンスに個別に適用されているため、従来の手法ではテキスト認識の視覚的手がかりを理解するためにセマンティクスを十分に活用していなかった。
本稿では,視覚的特徴量と意味的特徴量とのインタラクションを可能にするマルチモーダルテキスト認識ネットワーク(matrn)と呼ばれる新しい手法を提案する。
具体的には、MATRNは視覚的特徴対と意味的特徴対を特定し、空間情報を意味的特徴にエンコードする。
空間符号化に基づいて、他のモダリティの関連特徴を参照することにより、視覚的特徴と意味的特徴が強化される。
さらに、MATRNは、トレーニングフェーズにおける文字に関連する視覚的手がかりを隠すことで、意味的特徴と視覚的特徴との結合を刺激する。
実験の結果,MATRNは7つのベンチマークにおいて高いマージンを持つ最先端性能を達成し,一方2つのモダリティの組み合わせは有意な改善を示した。
さらなるアブレーション研究により,提案する成分の有効性が証明された。
私たちの実装は公開されます。
関連論文リスト
- Embedding and Enriching Explicit Semantics for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-infrared person re-identification (VIReID)は、異なるモードで同じ同一の歩行者画像を取得する。
既存の方法は画像のみから視覚的コンテンツを学習するが、高レベルの意味を感知する能力は欠如している。
本稿では,意味的にリッチな横断歩行者表現を学習するための埋め込み・拡張型明示的意味論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-11T14:27:30Z) - Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。
AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文 参考訳(メタデータ) (2024-06-05T07:59:48Z) - Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。
具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。
セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文 参考訳(メタデータ) (2024-05-06T16:31:19Z) - CLIP-Driven Semantic Discovery Network for Visible-Infrared Person
Re-Identification [39.262536758248245]
モダリティ間の同一性マッチングは、VIReIDにおいて重要な課題である。
本稿では,CLIP-Driven Semantic Discovery Network(CSDN)を提案する。
論文 参考訳(メタデータ) (2024-01-11T10:20:13Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Learning Semantic-Aligned Feature Representation for Text-based Person
Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。
特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。
CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-12-13T14:54:38Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z) - Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。
GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。
正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2020-03-27T09:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。