Fugu-MT 論文翻訳(概要): Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features

論文の概要: Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features

arxiv url: http://arxiv.org/abs/2111.15263v1
Date: Tue, 30 Nov 2021 10:22:11 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-01 23:10:19.188853
Title: Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features
Title（参考訳）: マルチモーダルテキスト認識ネットワーク:視覚的特徴と意味的特徴の相互強化
Authors: Byeonghu Na, Yoonsik Kim, Sungrae Park
Abstract要約: 本稿では,MATRN(Multi-Almod Text Recognition Network)と呼ばれる新しい手法を提案する。 MATRNは視覚的特徴対と意味的特徴対を特定し、空間情報を意味的特徴にエンコードする。実験の結果,MATRNは7つのベンチマークで最先端のパフォーマンスを達成できた。
参考スコア（独自算出の注目度）: 11.48760300147023
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Linguistic knowledge has brought great benefits to scene text recognition by providing semantics to refine character sequences. However, since linguistic knowledge has been applied individually on the output sequence, previous methods have not fully utilized the semantics to understand visual clues for text recognition. This paper introduces a novel method, called Multi-modAl Text Recognition Network (MATRN), that enables interactions between visual and semantic features for better recognition performances. Specifically, MATRN identifies visual and semantic feature pairs and encodes spatial information into semantic features. Based on the spatial encoding, visual and semantic features are enhanced by referring to related features in the other modality. Furthermore, MATRN stimulates combining semantic features into visual features by hiding visual clues related to the character in the training phase. Our experiments demonstrate that MATRN achieves state-of-the-art performances on seven benchmarks with large margins, while naive combinations of two modalities show marginal improvements. Further ablative studies prove the effectiveness of our proposed components. Our implementation will be publicly available.
Abstract（参考訳）: 言語知識は、文字列を洗練するための意味論を提供することで、シーンのテキスト認識に大きな利益をもたらした。しかし、言語知識は出力シーケンスに個別に適用されているため、従来の手法ではテキスト認識の視覚的手がかりを理解するためにセマンティクスを十分に活用していなかった。本稿では,視覚的特徴量と意味的特徴量とのインタラクションを可能にするマルチモーダルテキスト認識ネットワーク(matrn)と呼ばれる新しい手法を提案する。具体的には、MATRNは視覚的特徴対と意味的特徴対を特定し、空間情報を意味的特徴にエンコードする。空間符号化に基づいて、他のモダリティの関連特徴を参照することにより、視覚的特徴と意味的特徴が強化される。さらに、MATRNは、トレーニングフェーズにおける文字に関連する視覚的手がかりを隠すことで、意味的特徴と視覚的特徴との結合を刺激する。実験の結果,MATRNは7つのベンチマークにおいて高いマージンを持つ最先端性能を達成し,一方2つのモダリティの組み合わせは有意な改善を示した。さらなるアブレーション研究により,提案する成分の有効性が証明された。私たちの実装は公開されます。

関連論文リスト

SAViL-Det: Semantic-Aware Vision-Language Model for Multi-Script Text Detection [4.013156524547072]
本稿では,多文テキスト検出機能を備えた意味認識型視覚言語モデルSAViL-Detを紹介する。提案フレームワークは,テキストプロンプトから視覚的特徴への微粒な意味情報を,モーダルな注意を通して適応的に伝達する。挑戦的なベンチマークの実験では、提案手法の有効性が示されている。
論文参考訳（メタデータ） (2025-07-27T09:16:39Z)
Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-29T10:17:57Z)
Embedding and Enriching Explicit Semantics for Visible-Infrared Person Re-Identification [31.011118085494942]
Visible-infrared person re-identification (VIReID)は、異なるモードで同じ同一の歩行者画像を取得する。既存の方法は画像のみから視覚的コンテンツを学習するが、高レベルの意味を感知する能力は欠如している。本稿では,意味的にリッチな横断歩行者表現を学習するための埋め込み・拡張型明示的意味論フレームワークを提案する。
論文参考訳（メタデータ） (2024-12-11T14:27:30Z)
Attend and Enrich: Enhanced Visual Prompt for Zero-Shot Learning [114.59476118365266]
視覚表現豊か化のための意味強調プロンプトを抽出するための視覚的プロンプトに意味情報を付与するAENetを提案する。 AENetは、2つの重要なステップから構成される: 1) 視覚的・属性的モダリティの概念調和トークンを探索し、一貫した視覚的セマンティックな概念を表す様相共有トークンに基づく。
論文参考訳（メタデータ） (2024-06-05T07:59:48Z)
Dual Relation Mining Network for Zero-Shot Learning [48.89161627050706]
本稿では,効果的な視覚・意味的相互作用を実現し,知識伝達のための属性間の意味的関係を学習するためのDual Relation Mining Network(DRMN)を提案する。具体的には,多層的特徴融合により視覚情報を強化する視覚・意味的関係マイニングのためのデュアルアテンションブロック(DAB)を提案する。セマンティック・インタラクション・トランスフォーマ(SIT)を用いて画像間の属性表現の一般化を促進する。
論文参考訳（メタデータ） (2024-05-06T16:31:19Z)
PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition [47.11517266162346]
本稿では,言語的モダリティの能力をよりよく活用するための,プロンプト駆動型視覚言語表現学習フレームワークを提案する。従来の一方向融合とは対照的に,テキストと視覚的特徴の双方向相互作用を可能にするDMA(Dual-Modal Attention)を導入する。
論文参考訳（メタデータ） (2024-01-31T14:39:11Z)
CMFN: Cross-Modal Fusion Network for Irregular Scene Text Recognition [22.13675752628]
本稿では,不規則なシーンテキスト認識のための新しいクロスモーダル融合ネットワーク(CMFN)を提案する。 CMFNは、位置自己拡張エンコーダ、視覚認識枝、反復意味認識枝から構成される。実験により,提案したCMFNアルゴリズムは最先端のアルゴリズムに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-01-18T15:05:57Z)
CLIP-Driven Semantic Discovery Network for Visible-Infrared Person Re-Identification [39.262536758248245]
モダリティ間の同一性マッチングは、VIReIDにおいて重要な課題である。本稿では,CLIP-Driven Semantic Discovery Network(CSDN)を提案する。
論文参考訳（メタデータ） (2024-01-11T10:20:13Z)
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文参考訳（メタデータ） (2023-03-27T00:58:39Z)
Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文参考訳（メタデータ） (2022-04-29T03:53:54Z)
Learning Semantic-Aligned Feature Representation for Text-based Person Search [8.56017285139081]
テキストに基づく人物検索のためのセマンティック・アライン・埋め込み手法を提案する。特徴アライメントは、意味的に整った視覚的特徴とテキスト的特徴を自動的に学習することで達成される。 CUHK-PEDESおよびFlickr30Kデータセットによる実験結果から,本手法が最先端の性能を実現することを示す。
論文参考訳（メタデータ） (2021-12-13T14:54:38Z)
From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。 VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文参考訳（メタデータ） (2021-08-22T07:56:24Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)
Towards Accurate Scene Text Recognition with Semantic Reasoning Networks [52.86058031919856]
本稿では,シーンテキスト認識のための意味推論ネットワーク(SRN)という,エンドツーエンドのトレーニング可能な新しいフレームワークを提案する。 GSRMはマルチウェイ並列伝送によってグローバルセマンティックコンテキストをキャプチャするために導入された。正規テキスト,不規則テキスト,非ラテン語長文を含む7つの公開ベンチマークの結果,提案手法の有効性とロバスト性を検証した。
論文参考訳（メタデータ） (2020-03-27T09:19:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。