論文の概要: MOoSE: Multi-Orientation Sharing Experts for Open-set Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2407.18616v1
- Date: Fri, 26 Jul 2024 09:20:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 13:50:27.565994
- Title: MOoSE: Multi-Orientation Sharing Experts for Open-set Scene Text Recognition
- Title(参考訳): MOoSE: オープンセットシーンテキスト認識のための多目的共有エキスパート
- Authors: Chang Liu, Simon Corbillé, Elisa H Barney Smith,
- Abstract要約: オープンセットテキスト認識は、新しい文字と以前に見られた文字の両方に対処することを目的としている。
まず,新しい文字と書き方の違いの両方の課題をモデル化するために,MOOSTR(Multi-Oriented Open-Set Text Recognition Task)を提案する。
次に、強力なベースラインソリューションとして、MOoSE(Multi-Orientation Sharing Experts)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.6227230205444902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-set text recognition, which aims to address both novel characters and previously seen ones, is one of the rising subtopics in the text recognition field. However, the current open-set text recognition solutions only focuses on horizontal text, which fail to model the real-life challenges posed by the variety of writing directions in real-world scene text. Multi-orientation text recognition, in general, faces challenges from the diverse image aspect ratios, significant imbalance in data amount, and domain gaps between orientations. In this work, we first propose a Multi-Oriented Open-Set Text Recognition task (MOOSTR) to model the challenges of both novel characters and writing direction variety. We then propose a Multi-Orientation Sharing Experts (MOoSE) framework as a strong baseline solution. MOoSE uses a mixture-of-experts scheme to alleviate the domain gaps between orientations, while exploiting common structural knowledge among experts to alleviate the data scarcity that some experts face. The proposed MOoSE framework is validated by ablative experiments, and also tested for feasibility on the existing open-set benchmark. Code, models, and documents are available at: https://github.com/lancercat/Moose/
- Abstract(参考訳): オープンセットテキスト認識は、新しい文字と以前に見られた文字の両方に対処することを目的としており、テキスト認識分野における新たなサブトピックの1つである。
しかし、現在のオープンセットテキスト認識ソリューションは水平テキストのみに焦点を当てており、現実のシーンテキストにおける様々な書き方によって引き起こされる現実的な課題をモデル化することができない。
多方向テキスト認識は、一般的に、多様な画像アスペクト比、データ量の著しい不均衡、配向間のドメインギャップといった課題に直面している。
本研究では,新しい文字と書き方の違いの両方の課題をモデル化するために,まずMOOSTR(Multi-Oriented Open-Set Text Recognition Task)を提案する。
次に、強力なベースラインソリューションとして、MOoSE(Multi-Orientation Sharing Experts)フレームワークを提案する。
MOoSEは、専門家が直面するデータ不足を軽減するために、専門家の間で共通の構造的知識を活用しながら、オリエンテーション間のドメインギャップを軽減するために、エキスパートの混在スキームを使用している。
提案したMOoSEフレームワークは, 実験によって検証され, 既存のオープンセットベンチマークの実現可能性についても検証されている。
コード、モデル、ドキュメントは、https://github.com/lancercat/Moose/で入手できる。
関連論文リスト
- Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。
本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。
標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文 参考訳(メタデータ) (2024-02-21T09:22:45Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Text is Text, No Matter What: Unifying Text Recognition using Knowledge
Distillation [41.43280922432707]
私たちは、2つの最先端のSTRモデルとHTRモデルと好適に競合できる単一のモデルを目指しています。
まず、STRモデルとHTRモデルの相互利用が、それらの固有の課題の違いにより、大幅な性能低下を引き起こすことを示す。
次に、知識蒸留(KD)に基づく枠組みを導入することで、彼らの連合に取り組みます。
論文 参考訳(メタデータ) (2021-07-26T10:10:34Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - Text Detection and Recognition in the Wild: A Review [7.43788469020627]
最先端のシーンテキスト検出および/または認識手法は、ディープラーニングアーキテクチャの進歩を生かしている。
本稿では,シーンテキストの検出と認識の最近の進歩についてレビューする。
また、野生の画像中のテキストを検出し、認識するためのいくつかの既存の課題を特定する。
論文 参考訳(メタデータ) (2020-06-08T01:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。