論文の概要: EventSTR: A Benchmark Dataset and Baselines for Event Stream based Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2502.09020v1
- Date: Thu, 13 Feb 2025 07:16:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:03.646900
- Title: EventSTR: A Benchmark Dataset and Baselines for Event Stream based Scene Text Recognition
- Title(参考訳): EventSTR: イベントストリームベースのシーンテキスト認識のためのベンチマークデータセットとベースライン
- Authors: Xiao Wang, Jingtao Jiang, Dong Li, Futian Wang, Lin Zhu, Yaowei Wang, Yongyong Tian, Jin Tang,
- Abstract要約: シーンテキスト認識アルゴリズムは、低照度、動きのぼかし、散らかった背景などの難易度に敏感なRGBカメラに基づいて開発されている。
本研究では,バイオインスパイアされたイベントカメラを用いて,大規模なベンチマークデータセットであるEventSTRを収集・注釈することで,シーンテキストを認識することを提案する。
また,SimC-ESTRと呼ばれるイベントベースのシーンテキスト認識フレームワークを提案する。
- 参考スコア(独自算出の注目度): 39.12227212510573
- License:
- Abstract: Mainstream Scene Text Recognition (STR) algorithms are developed based on RGB cameras which are sensitive to challenging factors such as low illumination, motion blur, and cluttered backgrounds. In this paper, we propose to recognize the scene text using bio-inspired event cameras by collecting and annotating a large-scale benchmark dataset, termed EventSTR. It contains 9,928 high-definition (1280 * 720) event samples and involves both Chinese and English characters. We also benchmark multiple STR algorithms as the baselines for future works to compare. In addition, we propose a new event-based scene text recognition framework, termed SimC-ESTR. It first extracts the event features using a visual encoder and projects them into tokens using a Q-former module. More importantly, we propose to augment the vision tokens based on a memory mechanism before feeding into the large language models. A similarity-based error correction mechanism is embedded within the large language model to correct potential minor errors fundamentally based on contextual information. Extensive experiments on the newly proposed EventSTR dataset and two simulation STR datasets fully demonstrate the effectiveness of our proposed model. We believe that the dataset and algorithmic model can innovatively propose an event-based STR task and are expected to accelerate the application of event cameras in various industries. The source code and pre-trained models will be released on https://github.com/Event-AHU/EventSTR
- Abstract(参考訳): 主ストリームシーンテキスト認識(STR)アルゴリズムは、低照度、動きのぼかし、乱れの背景といった困難な要因に敏感なRGBカメラに基づいて開発されている。
本稿では,バイオインスパイアされたイベントカメラを用いて,大規模なベンチマークデータセットであるEventSTRを収集し,アノテートすることで,シーンテキストを認識することを提案する。
9,928のハイデフィニション(1280 * 720)イベントサンプルがあり、中国語と英語の両方の文字が含まれている。
また、将来の作業のベースラインとして、複数のSTRアルゴリズムをベンチマークします。
さらに,SimC-ESTRと呼ばれるイベントベースのシーンテキスト認識フレームワークを提案する。
まず、ビジュアルエンコーダを使用してイベント機能を抽出し、Q-formerモジュールを使用してトークンに投影する。
さらに重要なことは、大きな言語モデルに入力する前に、メモリ機構に基づいて視覚トークンを拡張することを提案する。
類似性に基づく誤り訂正機構を大言語モデル内に組み込んで、コンテキスト情報に基づいて潜在的なマイナーエラーを根本的に補正する。
新たに提案したEventSTRデータセットと2つのシミュレーションSTRデータセットに関する大規模な実験により,提案モデルの有効性を実証した。
我々は、データセットとアルゴリズムモデルが革新的にイベントベースのSTRタスクを提案し、様々な産業におけるイベントカメラの適用を加速することが期待されていると信じている。
ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/EventSTRでリリースされる。
関連論文リスト
- EventGPT: Event Stream Understanding with Multimodal Large Language Models [59.65010502000344]
イベントカメラは、視覚情報を非同期なピクセル変更ストリームとして記録し、不満足な照明や高ダイナミックな条件下でのシーン認識に優れる。
既存のマルチモーダル大言語モデル(MLLM)は、自然のRGBイメージに集中しており、イベントデータがより適合するシナリオでは失敗する。
イベントストリーム理解のための最初のMLLMであるEventGPTを紹介する。
論文 参考訳(メタデータ) (2024-12-01T14:38:40Z) - Text-to-Events: Synthetic Event Camera Streams from Conditional Text Input [8.365349007799296]
イベントカメラは、低レイテンシとスパース出力応答を持つ視覚センサーを必要とするタスクに有利である。
本稿では,テキスト・ツー・Xモデルを用いてラベル付きイベント・データセットを新たに作成する方法を報告する。
本モデルでは,異なる文文によって引き起こされる人間のジェスチャーのリアルなイベントシーケンスを生成できることを実証する。
論文 参考訳(メタデータ) (2024-06-05T16:34:12Z) - Semantic-Aware Frame-Event Fusion based Pattern Recognition via Large
Vision-Language Models [15.231177830711077]
セマンティックラベル,RGBフレーム,イベントストリームを統合した新しいパターン認識フレームワークを提案する。
セマンティックなラベルを扱うために,素早い工学を通して言語記述に変換する。
マルチモーダルトランスフォーマーネットワークを用いたRGB/Event機能とセマンティック機能を統合する。
論文 参考訳(メタデータ) (2023-11-30T14:35:51Z) - GET: Group Event Transformer for Event-Based Vision [82.312736707534]
イベントカメラは、注目を集めている新しいニューロモルフィックセンサーの一種である。
我々は、グループイベントトランスフォーマー(GET)と呼ばれる、イベントベースのビジョンのための新しいグループベースのビジョントランスフォーマーバックボーンを提案する。
GETは特徴抽出プロセスを通して空間的インフォメーションから時間的極性情報を分離する。
論文 参考訳(メタデータ) (2023-10-04T08:02:33Z) - Event Stream-based Visual Object Tracking: A High-Resolution Benchmark
Dataset and A Novel Baseline [38.42400442371156]
既存の作業は、整列したRGBとイベントデータを使用して正確なトラッキングを行うか、イベントベースのトラッカーを直接学習する。
本稿では,知識伝達を促進するために,学習中に多モード/多ビュー情報を十分に活用できる新しい階層型知識蒸留フレームワークを提案する。
EventVOTという,最初の大規模高解像度(1280×720$)のデータセットを提案する。1141のビデオが収録されており,歩行者や自動車,UAV,ピンポンなど,幅広いカテゴリをカバーする。
論文 参考訳(メタデータ) (2023-09-26T01:42:26Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - EventBind: Learning a Unified Representation to Bind Them All for Event-based Open-world Understanding [7.797154022794006]
EventBindは、イベントベースの認識のためのビジョン言語モデル(VLM)の可能性を解き放つ新しいフレームワークである。
まず、イベントからの時間情報を微妙にモデル化する新しいイベントエンコーダを紹介する。
次に、コンテントプロンプトを生成し、ハイブリッドテキストプロンプトを利用してEventBindの一般化能力を向上するテキストエンコーダを設計する。
論文 参考訳(メタデータ) (2023-08-06T15:05:42Z) - Geometric Perception based Efficient Text Recognition [0.0]
固定されたカメラ位置を持つ現実世界のアプリケーションでは、基礎となるデータは通常のシーンテキストであることが多い。
本稿では, 基礎となる概念, 理論, 実装, 実験結果を紹介する。
本稿では,現在ある幾何学的特徴のみを用いて,通常のシーン画像中の数字を識別するように訓練された新しいディープラーニングアーキテクチャ(GeoTRNet)を提案する。
論文 参考訳(メタデータ) (2023-02-08T04:19:24Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - AutoSTR: Efficient Backbone Search for Scene Text Recognition [80.7290173000068]
テキストインスタンスの多様性とシーンの複雑さのため、シーンテキスト認識(STR)は非常に難しい。
テキスト認識性能を向上させるために,データ依存のバックボーンを検索するための自動STR(AutoSTR)を提案する。
実験によると、データ依存のバックボーンを検索することで、AutoSTRは標準ベンチマークにおける最先端のアプローチより優れている。
論文 参考訳(メタデータ) (2020-03-14T06:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。