論文の概要: Out-of-Vocabulary Challenge Report
- arxiv url: http://arxiv.org/abs/2209.06717v1
- Date: Wed, 14 Sep 2022 15:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:38:26.545726
- Title: Out-of-Vocabulary Challenge Report
- Title(参考訳): 語彙外課題報告
- Authors: Sergi Garcia-Bordils, Andr\'es Mafla, Ali Furkan Biten, Oren Nuriel,
Aviad Aberdam, Shai Mazor, Ron Litman, Dimosthenis Karatzas
- Abstract要約: Out-Of-Vocabulary 2022 (OOV) チャレンジでは、トレーニング時に見えないシーンテキストインスタンスの認識が導入されている。
コンペティションは、326,385のイメージと4,864,405のシーンテキストインスタンスからなる公開シーンテキストデータセットのコレクションをコンパイルする。
ベースラインと異なる参加者からの結果を徹底的に分析する。
- 参考スコア(独自算出の注目度): 15.827931962904115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents final results of the Out-Of-Vocabulary 2022 (OOV)
challenge. The OOV contest introduces an important aspect that is not commonly
studied by Optical Character Recognition (OCR) models, namely, the recognition
of unseen scene text instances at training time. The competition compiles a
collection of public scene text datasets comprising of 326,385 images with
4,864,405 scene text instances, thus covering a wide range of data
distributions. A new and independent validation and test set is formed with
scene text instances that are out of vocabulary at training time. The
competition was structured in two tasks, end-to-end and cropped scene text
recognition respectively. A thorough analysis of results from baselines and
different participants is presented. Interestingly, current state-of-the-art
models show a significant performance gap under the newly studied setting. We
conclude that the OOV dataset proposed in this challenge will be an essential
area to be explored in order to develop scene text models that achieve more
robust and generalized predictions.
- Abstract(参考訳): 本稿では,Of-Vocabulary 2022(OOV)チャレンジの最終結果を示す。
OOVコンテストは、光学文字認識(OCR)モデルで一般的に研究されていない重要な側面、すなわちトレーニング時に見えないシーンテキストインスタンスの認識を導入する。
コンペティションは、326,385枚の画像と4,864,405のシーンテキストインスタンスからなる公開シーンテキストデータセットのコレクションをコンパイルし、幅広いデータ分布をカバーする。
新たな独立したバリデーションとテストセットは、トレーニング時に語彙を欠いたシーンテキストインスタンスで形成される。
コンペティションはそれぞれ、エンドツーエンドとトリミングされたシーンテキスト認識という2つのタスクで構成された。
ベースラインと異なる参加者からの結果を徹底的に分析する。
興味深いことに、現在の最先端のモデルでは、新しく研究された設定下で大きなパフォーマンスの差が見られる。
この課題で提案したOOVデータセットは、より堅牢で一般化された予測を実現するシーンテキストモデルを開発するために、検討すべき重要な領域である。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual
Text Processing [4.057550183467041]
視覚テキスト処理の分野は、基本的な生成モデルの出現によって、研究の急増を経験してきた。
この分野での最近の進歩を包括的かつ多面的に分析する。
論文 参考訳(メタデータ) (2024-02-05T15:13:20Z) - COSA: Concatenated Sample Pretrained Vision-Language Foundation Model [78.32081709802873]
ほとんどの視覚言語基盤モデルは、事前トレーニングに画像テキストデータセットを使用している。
我々は,COncatenated SAmple pretrained vision- language foundation modelであるCOSAを提案する。
複数の画像テキストペアを事前学習用入力として逐次結合することで、これを実現する。
この変換により、既存の画像テキストコーパスを擬似長文ビデオパラグラフコーパスに変換する。
論文 参考訳(メタデータ) (2023-06-15T12:29:42Z) - ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich
Document Images [198.35937007558078]
大会は2022年12月30日に開かれ、2023年3月24日に閉幕した。
トラック1には35人の参加者と91人の有効な応募があり、トラック2には15人の参加者と26人の応募がある。
提案手法の性能によると, 複雑なシナリオやゼロショットシナリオにおいて, 期待される情報抽出性能にはまだ大きなギャップがあると考えられる。
論文 参考訳(メタデータ) (2023-06-05T22:20:52Z) - Few-shot Domain-Adaptive Visually-fused Event Detection from Text [13.189886554546929]
本稿では、いくつかのラベル付き画像テキストペアデータポイントでトレーニング可能な、ドメイン適応型視覚融合イベント検出手法を提案する。
具体的には,視覚的文脈がない場合にテキストから画像を生成する視覚的イマジネータ手法を提案する。
我々のモデルは、事前学習された視覚言語モデルの能力を活用でき、数ショットで訓練することができる。
論文 参考訳(メタデータ) (2023-05-04T00:10:57Z) - 1st Place Solution to ECCV 2022 Challenge on Out of Vocabulary Scene
Text Understanding: Cropped Word Recognition [35.2137931915091]
本報告では,ECCV 2022における語彙外シーンテキスト理解(OOV-ST)の課題に対する勝者ソリューションについて述べる。
語彙内単語と語彙外単語の両方を考慮すると、全体的な単語精度は69.73%に達する。
論文 参考訳(メタデータ) (2022-08-04T16:20:58Z) - Text Detection & Recognition in the Wild for Robot Localization [1.52292571922932]
テキスト文字列とバウンディングボックスを同時に出力するエンド・ツー・エンドシーンテキストスポッティングモデルを提案する。
我々の中心的な貢献は、不規則かつ隠蔽されたテキスト領域を適切にキャプチャするために、エンドツーエンドのテキストスポッティングフレームワークを利用することである。
論文 参考訳(メタデータ) (2022-05-17T18:16:34Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。