論文の概要: Vision-Language Adaptive Mutual Decoder for OOV-STR
- arxiv url: http://arxiv.org/abs/2209.00859v1
- Date: Fri, 2 Sep 2022 07:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-05 12:34:41.421440
- Title: Vision-Language Adaptive Mutual Decoder for OOV-STR
- Title(参考訳): OOV-STR用視覚言語適応型相互デコーダ
- Authors: Jinshui Hu, Chenyu Liu, Qiandong Yan, Xuyang Zhu, Fengli yu, Jiajia
Wu, Bing Yin
- Abstract要約: 我々は、VLAMD(Vision Language Adaptive Mutual Decoder)というフレームワークを設計し、OoV(out-of-vocabulary)問題に部分的に対処する。
提案手法は,ECCV 2022 TiE Workshop における OOV-ST Challenge の単語認識タスクにおいて, IV+OOV と OOV の設定に対して 70.31% と 59.61% の単語精度を達成した。
- 参考スコア(独自算出の注目度): 5.628445235228528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works have shown huge success of deep learning models for common in
vocabulary (IV) scene text recognition. However, in real-world scenarios,
out-of-vocabulary (OOV) words are of great importance and SOTA recognition
models usually perform poorly on OOV settings. Inspired by the intuition that
the learned language prior have limited OOV preformence, we design a framework
named Vision Language Adaptive Mutual Decoder (VLAMD) to tackle OOV problems
partly. VLAMD consists of three main conponents. Firstly, we build an attention
based LSTM decoder with two adaptively merged visual-only modules, yields a
vision-language balanced main branch. Secondly, we add an auxiliary query based
autoregressive transformer decoding head for common visual and language prior
representation learning. Finally, we couple these two designs with
bidirectional training for more diverse language modeling, and do mutual
sequential decoding to get robuster results. Our approach achieved 70.31\% and
59.61\% word accuracy on IV+OOV and OOV settings respectively on Cropped Word
Recognition Task of OOV-ST Challenge at ECCV 2022 TiE Workshop, where we got
1st place on both settings.
- Abstract(参考訳): 近年の研究では、語彙(IV)シーンのテキスト認識に共通する深層学習モデルが大きな成功を収めている。
しかし、現実のシナリオでは、語彙外(oov)の単語は非常に重要であり、sota認識モデルは通常、oovの設定で性能が悪い。
学習言語がOOVプリフォームを制限していたという直感に触発されて、視覚言語適応型相互デコーダ(VLAMD)というフレームワークを設計し、OOVの問題に部分的に対処する。
VLAMDは3つの主要なコンポンジェントから構成される。
まず,2つの視覚のみのモジュールを適応的に結合したアテンションベースLSTMデコーダを構築し,視覚言語によるバランスの取れたメインブランチを生成する。
次に,共通視覚および言語先行表現学習のための補助的クエリベース自己回帰トランスフォーマ復号ヘッドを追加する。
最後に、これらの2つの設計を、より多様な言語モデリングのための双方向トレーニングと組み合わせ、より堅牢な結果を得るために相互に逐次復号を行う。
提案手法は,ECCV 2022 TiE Workshop の OOV-ST Challenge において,IV+OOV と OOV の設定に対して,70.31\% と59.61\% の単語精度を達成した。
関連論文リスト
- DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Image as a Foreign Language: BEiT Pretraining for All Vision and
Vision-Language Tasks [87.6494641931349]
汎用多目的基礎モデルBEiT-3を紹介する。
視覚と視覚言語の両方のタスクで最先端の転送性能を達成する。
論文 参考訳(メタデータ) (2022-08-22T16:55:04Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z) - VLMo: Unified Vision-Language Pre-Training with
Mixture-of-Modality-Experts [46.55920956687346]
本稿では、デュアルエンコーダとモジュールトランスフォーマーネットワークを用いた融合エンコーダを共同で学習する統合ビジョンランゲージ事前学習モデル(VLMo)を提案する。
MoMEのモデリングの柔軟性のため、事前訓練されたVLMoは、視覚言語分類タスクのための融合エンコーダとして微調整できる。
本稿では,画像とテキストのペアに加えて,大規模画像のみとテキストのみのデータを効果的に活用する,段階的な事前学習戦略を提案する。
論文 参考訳(メタデータ) (2021-11-03T17:20:36Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z) - Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language
Representation Learning [31.895442072646254]
「tHe bOx」は画像全体を入力とし、視覚言語表現をエンドツーエンドで学習する。
SohoはMSCOCOテキスト検索5kテスト分割で2.0% R@1スコア、NLVR$2$テスト-P分割で1.5%の精度、SNLI-VEテスト分割で6.7%の精度を達成しました。
論文 参考訳(メタデータ) (2021-04-07T14:07:20Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - Towards Learning a Generic Agent for Vision-and-Language Navigation via
Pre-training [150.35927365127176]
視覚・言語ナビゲーション(VLN)タスクのための,最初の事前学習および微調整パラダイムを提案する。
自己教師付き学習方式で大量の画像-テキスト-アクション三つ子を訓練することにより、事前学習されたモデルは、視覚環境と言語命令の一般的な表現を提供する。
新たなタスクにおいてより効果的に学習し、以前は目に見えない環境でより良く一般化する。
論文 参考訳(メタデータ) (2020-02-25T03:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。