論文の概要: 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene
Text Understanding: Cropped Word Recognition
- arxiv url: http://arxiv.org/abs/2208.02747v1
- Date: Thu, 4 Aug 2022 16:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-05 12:45:33.508758
- Title: 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene
Text Understanding: Cropped Word Recognition
- Title(参考訳): 第1回eccv 2022チャレンジ「out of vocabulary scene text understanding: cropped word recognition」の解法
- Authors: Zhangzi Zhu, Yu Hao, Wenqing Zhang, Chuhui Xue, Song Bai
- Abstract要約: 本報告では,ECCV 2022における語彙外シーンテキスト理解(OOV-ST)の課題に対する勝者ソリューションについて述べる。
語彙内単語と語彙外単語の両方を考慮すると、全体的な単語精度は69.73%に達する。
- 参考スコア(独自算出の注目度): 35.2137931915091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents our winner solution to ECCV 2022 challenge on
Out-of-Vocabulary Scene Text Understanding (OOV-ST) : Cropped Word Recognition.
This challenge is held in the context of ECCV 2022 workshop on Text in
Everything (TiE), which aims to extract out-of-vocabulary words from natural
scene images. In the competition, we first pre-train SCATTER on the synthetic
datasets, then fine-tune the model on the training set with data augmentations.
Meanwhile, two additional models are trained specifically for long and vertical
texts. Finally, we combine the output from different models with different
layers, different backbones, and different seeds as the final results. Our
solution achieves an overall word accuracy of 69.73% when considering both
in-vocabulary and out-of-vocabulary words.
- Abstract(参考訳): 本報告は,eccv 2022 challenge on out-of-vocabulary scene text understanding (oov-st) の勝者である。
この課題は、自然の風景画像から語彙外単語を抽出することを目的としたECCV 2022 Workshop on Text in Everything (TiE)の文脈で行われる。
コンペでは、まず合成データセット上でSCATTERを事前訓練し、次にデータ拡張でトレーニングセット上でモデルを微調整します。
一方、縦と縦のテキスト用に2つの追加モデルが訓練されている。
最後に、最終的な結果として、異なるモデルの出力を異なる層、異なるバックボーン、異なるシードと組み合わせます。
語彙内および語彙外の両方を考慮した場合、全体の単語精度は69.73%となる。
関連論文リスト
- COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - Out-of-Vocabulary Challenge Report [15.827931962904115]
Out-Of-Vocabulary 2022 (OOV) チャレンジでは、トレーニング時に見えないシーンテキストインスタンスの認識が導入されている。
コンペティションは、326,385のイメージと4,864,405のシーンテキストインスタンスからなる公開シーンテキストデータセットのコレクションをコンパイルする。
ベースラインと異なる参加者からの結果を徹底的に分析する。
論文 参考訳(メタデータ) (2022-09-14T15:25:54Z) - DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for
Text-to-Image Generation [71.87682778102236]
本稿では,動的セマンティック進化GAN(DSE-GAN)を提案する。
DSE-GANは2つの広く使用されているベンチマークで7.48%と37.8%のFID改善を達成した。
論文 参考訳(メタデータ) (2022-09-03T06:13:26Z) - 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene
Text Understanding: End-to-End Recognition of Out of Vocabulary Words [35.2137931915091]
本稿では,語彙シーンテキスト理解(OOV-ST)チャレンジに対する解決策について述べる。
我々のoCLIPベースのモデルは28.59%のh-meanを達成し、OOV ChallengeのエンドツーエンドOOVワード認識トラックで第1位となった。
論文 参考訳(メタデータ) (2022-09-01T04:53:13Z) - Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding [59.8167502322261]
本稿では,エンコーダ・デコーダ・トランスフォーマアーキテクチャに基づくワンステージ視覚グラウンドネットワークであるWord2Pixを提案する。
クエリ文からの各単語の埋め込みは、個別に視覚画素に参画することで同様に処理される。
提案されたWord2Pixは、既存のワンステージメソッドよりも顕著なマージンで優れている。
論文 参考訳(メタデータ) (2021-07-31T10:20:15Z) - The Zero Resource Speech Challenge 2020: Discovering discrete subword
and word units [40.41406551797358]
Zero Resource Speech Challenge 2020は、ラベルなしで生の音声信号から音声表現を学ぶことを目的としている。
提案した20のモデルの結果を提示し、教師なし音声学習における主な研究結果の意義について考察する。
論文 参考訳(メタデータ) (2020-10-12T18:56:48Z) - VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning [128.6138588412508]
本稿では,字幕アノテーションがない場合に事前学習を行うVIVO(Visual VOcabulary Pretraining)を提案する。
本モデルでは,新しいオブジェクトを記述した画像キャプションを生成するだけでなく,それらのオブジェクトの位置を識別する。
論文 参考訳(メタデータ) (2020-09-28T23:20:02Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z) - End-to-End Speech-Translation with Knowledge Distillation: FBK@IWSLT2020 [20.456325305495966]
本稿では,FBKによるIWSLT 2020オフライン音声翻訳(ST)タスクへの参加について述べる。
このタスクは、英語のTEDトーク音声をドイツ語のテキストに翻訳するシステムの能力を評価する。
本システムは音声データに対するTransformerの適応に基づくエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-06-04T15:47:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。