論文の概要: 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene
Text Understanding: End-to-End Recognition of Out of Vocabulary Words
- arxiv url: http://arxiv.org/abs/2209.00224v1
- Date: Thu, 1 Sep 2022 04:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:57:44.784099
- Title: 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene
Text Understanding: End-to-End Recognition of Out of Vocabulary Words
- Title(参考訳): 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene Text Understanding: End-to-End Recognition of Out of Vocabulary Words
- Authors: Zhangzi Zhu, Chuhui Xue, Yu Hao, Wenqing Zhang, Song Bai
- Abstract要約: 本稿では,語彙シーンテキスト理解(OOV-ST)チャレンジに対する解決策について述べる。
我々のoCLIPベースのモデルは28.59%のh-meanを達成し、OOV ChallengeのエンドツーエンドOOVワード認識トラックで第1位となった。
- 参考スコア(独自算出の注目度): 35.2137931915091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition has attracted increasing interest in recent years due
to its wide range of applications in multilingual translation, autonomous
driving, etc. In this report, we describe our solution to the Out of Vocabulary
Scene Text Understanding (OOV-ST) Challenge, which aims to extract
out-of-vocabulary (OOV) words from natural scene images. Our oCLIP-based model
achieves 28.59\% in h-mean which ranks 1st in end-to-end OOV word recognition
track of OOV Challenge in ECCV2022 TiE Workshop.
- Abstract(参考訳): 近年,多言語翻訳や自動運転などの幅広い応用により,シーンテキスト認識への関心が高まっている。
本稿では,自然シーン画像から語彙外単語(OOV)を抽出することを目的としたOOV-ST(Out of Vocabulary Scene Text Understanding)チャレンジに対する解決策について述べる。
我々のoCLIPベースのモデルは、ECCV2022 TiEワークショップにおけるOOVチャレンジのエンドツーエンドOOV音声認識トラックにおいて、28.59 %のh平均を達成する。
関連論文リスト
- Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
本稿では,事前学習型言語モデル(PLM)のための視覚的微調整手法を提案する。
我々はまず,3つの異なる手法が提案されているトークンセレクタを用いて,入力テキストから視覚的な単語(VH-words)を識別する。
大規模コーパス上の視覚言語アライメントタスクによって事前訓練されているため、アライメントされたテキスト表現に視覚意味論を注入することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z) - Out-of-Vocabulary Challenge Report [15.827931962904115]
Out-Of-Vocabulary 2022 (OOV) チャレンジでは、トレーニング時に見えないシーンテキストインスタンスの認識が導入されている。
コンペティションは、326,385のイメージと4,864,405のシーンテキストインスタンスからなる公開シーンテキストデータセットのコレクションをコンパイルする。
ベースラインと異なる参加者からの結果を徹底的に分析する。
論文 参考訳(メタデータ) (2022-09-14T15:25:54Z) - Vision-Language Adaptive Mutual Decoder for OOV-STR [5.628445235228528]
我々は、VLAMD(Vision Language Adaptive Mutual Decoder)というフレームワークを設計し、OoV(out-of-vocabulary)問題に部分的に対処する。
提案手法は,ECCV 2022 TiE Workshop における OOV-ST Challenge の単語認識タスクにおいて, IV+OOV と OOV の設定に対して 70.31% と 59.61% の単語精度を達成した。
論文 参考訳(メタデータ) (2022-09-02T07:32:22Z) - 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene
Text Understanding: Cropped Word Recognition [35.2137931915091]
本報告では,ECCV 2022における語彙外シーンテキスト理解(OOV-ST)の課題に対する勝者ソリューションについて述べる。
語彙内単語と語彙外単語の両方を考慮すると、全体的な単語精度は69.73%に達する。
論文 参考訳(メタデータ) (2022-08-04T16:20:58Z) - OVIS: Open-Vocabulary Visual Instance Search via Visual-Semantic Aligned
Representation Learning [79.49199857462087]
オープン語彙ビジュアルインスタンス検索(OVIS)の課題について紹介する。
任意のテキスト検索クエリが与えられた場合、OVISは、ランク付けされたビジュアルインスタンスのリストを返すことを目的としている。
ビジュアル・セマンティック・アライメント・表現学習(ViSA)を用いて,このような検索課題に対処することを提案する。
論文 参考訳(メタデータ) (2021-08-08T18:13:53Z) - VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge [99.82500204110015]
第2回「VoxCeleb Speaker Recognition Challenge」をInterspeech 2020と共に開催しました。
この課題の目的は、現在のスピーカー認識技術が、制約のないデータまたは野生のデータでスピーカーをダイアライズして認識できるかどうかを評価することでした。
本稿では,その課題を概説し,ベースライン,使用方法,結果について述べる。
論文 参考訳(メタデータ) (2020-12-12T17:20:57Z) - The End-of-End-to-End: A Video Understanding Pentathlon Challenge (2020) [186.7816349401443]
我々は、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020と共同で開かれたオープンコンペティションである、新しいビデオ理解ペンタトロンチャレンジを紹介する。
課題は,テキスト・ビデオ検索の新しい手法を探求し,評価することであった。
論文 参考訳(メタデータ) (2020-08-03T09:55:26Z) - SemEval-2020 Task 1: Unsupervised Lexical Semantic Change Detection [10.606357227329822]
評価は、現在、レキシカルセマンティック・チェンジ検出において最も差し迫った問題である。
コミュニティにとって金の基準は存在せず、進歩を妨げている。
このギャップに対処する最初の共有タスクの結果を示す。
論文 参考訳(メタデータ) (2020-07-22T14:37:42Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。