論文の概要: 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene
Text Understanding: End-to-End Recognition of Out of Vocabulary Words
- arxiv url: http://arxiv.org/abs/2209.00224v1
- Date: Thu, 1 Sep 2022 04:53:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:57:44.784099
- Title: 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene
Text Understanding: End-to-End Recognition of Out of Vocabulary Words
- Title(参考訳): 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene Text Understanding: End-to-End Recognition of Out of Vocabulary Words
- Authors: Zhangzi Zhu, Chuhui Xue, Yu Hao, Wenqing Zhang, Song Bai
- Abstract要約: 本稿では,語彙シーンテキスト理解(OOV-ST)チャレンジに対する解決策について述べる。
我々のoCLIPベースのモデルは28.59%のh-meanを達成し、OOV ChallengeのエンドツーエンドOOVワード認識トラックで第1位となった。
- 参考スコア(独自算出の注目度): 35.2137931915091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text recognition has attracted increasing interest in recent years due
to its wide range of applications in multilingual translation, autonomous
driving, etc. In this report, we describe our solution to the Out of Vocabulary
Scene Text Understanding (OOV-ST) Challenge, which aims to extract
out-of-vocabulary (OOV) words from natural scene images. Our oCLIP-based model
achieves 28.59\% in h-mean which ranks 1st in end-to-end OOV word recognition
track of OOV Challenge in ECCV2022 TiE Workshop.
- Abstract(参考訳): 近年,多言語翻訳や自動運転などの幅広い応用により,シーンテキスト認識への関心が高まっている。
本稿では,自然シーン画像から語彙外単語(OOV)を抽出することを目的としたOOV-ST(Out of Vocabulary Scene Text Understanding)チャレンジに対する解決策について述べる。
我々のoCLIPベースのモデルは、ECCV2022 TiEワークショップにおけるOOVチャレンジのエンドツーエンドOOV音声認識トラックにおいて、28.59 %のh平均を達成する。
関連論文リスト
- V3Det Challenge 2024 on Vast Vocabulary and Open Vocabulary Object Detection: Methods and Results [142.5704093410454]
V3Det Challenge 2024は、オブジェクト検出研究の境界を推し進めることを目的としている。
Vast Vocabulary Object DetectionとOpen Vocabulary Object Detectionの2つのトラックで構成されている。
我々は,広い語彙とオープン語彙のオブジェクト検出において,今後の研究の方向性を刺激することを目指している。
論文 参考訳(メタデータ) (2024-06-17T16:58:51Z) - VK-G2T: Vision and Context Knowledge enhanced Gloss2Text [60.57628465740138]
既存の手話翻訳法は、2段階のパイプラインに従っており、まず手話動画をグロスシーケンス(Sign2Gloss)に変換し、次に生成されたグロスシーケンスを音声言語文(Gross2Text)に変換する。
本稿では,目標文の性質を学習するために手話ビデオの視覚的内容を活用し,文脈知識を活用して単語の適応翻訳を容易にする,視覚的・文脈的知識強化型Gloss2Textモデル VK-G2Tを提案する。
論文 参考訳(メタデータ) (2023-12-15T21:09:34Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - OPI at SemEval 2023 Task 1: Image-Text Embeddings and Multimodal
Information Retrieval for Visual Word Sense Disambiguation [0.0]
本稿では,SemEval 2023の視覚的単語感覚の曖昧さ共有タスクについて述べる。
提案システムは,マルチモーダル埋め込み,メソッドのランク付け学習,知識に基づくアプローチを統合している。
私たちのソリューションは多言語作業では3位にランクされ、ペルシャの3つのサブタスクのうちの1つであるトラックで優勝しました。
論文 参考訳(メタデータ) (2023-04-14T13:45:59Z) - Out-of-Vocabulary Challenge Report [15.827931962904115]
Out-Of-Vocabulary 2022 (OOV) チャレンジでは、トレーニング時に見えないシーンテキストインスタンスの認識が導入されている。
コンペティションは、326,385のイメージと4,864,405のシーンテキストインスタンスからなる公開シーンテキストデータセットのコレクションをコンパイルする。
ベースラインと異なる参加者からの結果を徹底的に分析する。
論文 参考訳(メタデータ) (2022-09-14T15:25:54Z) - Vision-Language Adaptive Mutual Decoder for OOV-STR [39.35424739459689]
我々は、VLAMD(Vision Language Adaptive Mutual Decoder)というフレームワークを設計し、OoV(out-of-vocabulary)問題に部分的に対処する。
提案手法は,ECCV 2022 TiE Workshop における OOV-ST Challenge の単語認識タスクにおいて, IV+OOV と OOV の設定に対して 70.31% と 59.61% の単語精度を達成した。
論文 参考訳(メタデータ) (2022-09-02T07:32:22Z) - 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene
Text Understanding: Cropped Word Recognition [35.2137931915091]
本報告では,ECCV 2022における語彙外シーンテキスト理解(OOV-ST)の課題に対する勝者ソリューションについて述べる。
語彙内単語と語彙外単語の両方を考慮すると、全体的な単語精度は69.73%に達する。
論文 参考訳(メタデータ) (2022-08-04T16:20:58Z) - The End-of-End-to-End: A Video Understanding Pentathlon Challenge (2020) [186.7816349401443]
我々は、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020と共同で開かれたオープンコンペティションである、新しいビデオ理解ペンタトロンチャレンジを紹介する。
課題は,テキスト・ビデオ検索の新しい手法を探求し,評価することであった。
論文 参考訳(メタデータ) (2020-08-03T09:55:26Z) - On Vocabulary Reliance in Scene Text Recognition [79.21737876442253]
ボキャブラリ内の単語を持つ画像に対して、手法は良好に機能するが、ボキャブラリ外の単語を持つ画像にはあまり一般化しない。
私たちはこの現象を「語彙依存」と呼んでいる。
本研究では,2家族のモデルが協調的に学習できるようにするための,シンプルで効果的な相互学習戦略を提案する。
論文 参考訳(メタデータ) (2020-05-08T11:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。