論文の概要: Decoupling Visual-Semantic Feature Learning for Robust Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/2111.12351v1
- Date: Wed, 24 Nov 2021 09:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 15:34:07.592124
- Title: Decoupling Visual-Semantic Feature Learning for Robust Scene Text
Recognition
- Title(参考訳): ロバストなシーンテキスト認識のための視覚・視覚特徴学習の分離
- Authors: Changxu Cheng, Bohan Li, Qi Zheng, Yongpan Wang, Wenyu Liu
- Abstract要約: この問題に対処する新しいビジュアル・セマンティック・デカップリング・ネットワーク(VSDN)を提案する。
我々のVSDNには、ビジュアルデコーダ(VD)とセマンティックデコーダ(SD)があり、それぞれより純粋な視覚的特徴表現と意味的特徴表現を学習する。
提案手法は,標準ベンチマーク上での最先端ないし競争的な結果を達成する。
- 参考スコア(独自算出の注目度): 32.012689511969604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic information has been proved effective in scene text recognition.
Most existing methods tend to couple both visual and semantic information in an
attention-based decoder. As a result, the learning of semantic features is
prone to have a bias on the limited vocabulary of the training set, which is
called vocabulary reliance. In this paper, we propose a novel Visual-Semantic
Decoupling Network (VSDN) to address the problem. Our VSDN contains a Visual
Decoder (VD) and a Semantic Decoder (SD) to learn purer visual and semantic
feature representation respectively. Besides, a Semantic Encoder (SE) is
designed to match SD, which can be pre-trained together by additional
inexpensive large vocabulary via a simple word correction task. Thus the
semantic feature is more unbiased and precise to guide the visual feature
alignment and enrich the final character representation. Experiments show that
our method achieves state-of-the-art or competitive results on the standard
benchmarks, and outperforms the popular baseline by a large margin under
circumstances where the training set has a small size of vocabulary.
- Abstract(参考訳): シーンテキスト認識には意味情報が有効であることが証明されている。
既存の手法の多くは、注意に基づくデコーダで視覚情報と意味情報を結合する傾向がある。
結果として、意味的特徴の学習は、訓練セットの限られた語彙に偏りがちであり、これは語彙依存と呼ばれる。
本稿では,この問題に対処する新しいビジュアル・セマンティック・デカップリング・ネットワーク(VSDN)を提案する。
我々のVSDNにはビジュアルデコーダ(VD)とセマンティックデコーダ(SD)があり、それぞれより純粋な視覚的特徴表現と意味的特徴表現を学習する。
さらに、Semantic Encoder (SE) はSDにマッチするように設計されており、単純な単語修正タスクを通じて、より安価な大語彙で事前訓練することができる。
したがって、意味的特徴は、視覚的特徴のアライメントを導き、最終文字表現を豊かにするほど、より曖昧で正確である。
実験により,本手法は標準ベンチマークにおける最先端ないし競争的な結果が得られ,トレーニングセットが語彙の小さい状況下では,一般的なベースラインよりも高い性能を示すことが示された。
関連論文リスト
- FILS: Self-Supervised Video Feature Prediction In Semantic Language Space [11.641926922266347]
本稿では,セマンティックビデオ表現を学習するための自己教師型アプローチを示す。
本稿では,意味言語空間における特徴予測手法であるFILSについて述べる。
論文 参考訳(メタデータ) (2024-06-05T16:44:06Z) - Progressive Semantic-Guided Vision Transformer for Zero-Shot Learning [56.65891462413187]
ゼロショット学習のためのプログレッシブセマンティック誘導型視覚変換器(ZSLViT)を提案する。
ZSLViTは、まずセマンティック・エンベッドド・トークン・ラーニングを導入し、セマンティック・エンハンスメントを通じて視覚・セマンティック対応を改善する。
そして,視覚的強調のために,意味的無関係な視覚情報を捨てるために,低意味的・視覚的対応型視覚トークンを融合する。
論文 参考訳(メタデータ) (2024-04-11T12:59:38Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - Scene Text Recognition with Image-Text Matching-guided Dictionary [17.073688809336456]
Scene Image-Text Matching (SITM) ネットワークを利用した辞書言語モデルを提案する。
ITCにインスパイアされたSITMネットワークは、すべての候補の視覚的特徴とテキスト的特徴を組み合わせて、特徴空間における最小距離の候補を特定する。
本手法は6つの主要なベンチマークにおいて,通常の手法よりも優れた結果(93.8%の精度)が得られる。
論文 参考訳(メタデータ) (2023-05-08T07:47:49Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Visual-Semantic Contrastive Alignment for Few-Shot Image Classification [1.109560166867076]
Few-Shot Learningは、いくつかのラベル付き例で、目に見えない視覚クラスに適応可能なモデルをトレーニングすることを目的としている。
視覚的特徴ベクトルと意味的特徴ベクトルの対比的なアライメント機構を導入し、より一般化された視覚概念を学習する。
本手法は,視覚カテゴリーの文脈的知識を抽出する補助的コントラスト学習目的を単純に付加する。
論文 参考訳(メタデータ) (2022-10-20T03:59:40Z) - MSDN: Mutually Semantic Distillation Network for Zero-Shot Learning [28.330268557106912]
ゼロショット学習(ZSL)の主な課題は、視覚的特徴と属性的特徴の間に潜む意味的知識を、どのように推測するかである。
本稿では,視覚的特徴と属性的特徴の間の固有意味表現を段階的に蒸留する,MSDN(Mtually Semantic Distillation Network)を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:27:08Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Meta-Learning with Variational Semantic Memory for Word Sense
Disambiguation [56.830395467247016]
メタ学習環境におけるWSDのセマンティックメモリモデルを提案する。
我々のモデルは階層的変動推論に基づいており、ハイパーネットワークを介して適応的なメモリ更新ルールを組み込んでいる。
極めて少ないシナリオでの効果的な学習を支援するために,本モデルがWSDで最先端の技術を数ショットで実現していることを示す。
論文 参考訳(メタデータ) (2021-06-05T20:40:01Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。