論文の概要: ESTR-CoT: Towards Explainable and Accurate Event Stream based Scene Text Recognition with Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2507.02200v1
- Date: Wed, 02 Jul 2025 23:41:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.373044
- Title: ESTR-CoT: Towards Explainable and Accurate Event Stream based Scene Text Recognition with Chain-of-Thought Reasoning
- Title(参考訳): ESTR-CoT:Chain-of-Thought Reasoningによる説明可能かつ正確なイベントストリームに基づくシーンテキスト認識を目指して
- Authors: Xiao Wang, Jingtao Jiang, Qiang Chen, Lan Chen, Lin Zhu, Yaowei Wang, Yonghong Tian, Jin Tang,
- Abstract要約: 本稿では,イベントストリームシーンのテキスト認識フレームワークESTR-CoTを提案する。
具体的には、まず視覚エンコーダEVA-CLIPを採用し、入力イベントストリームをトークンに変換し、Llamaトークン化器を使用して与えられた生成プロンプトをエンコードする。
Qフォーマーは、事前訓練された大言語モデルVicuna-7Bにビジョントークンを整列させ、応答とチェーン・オブ・シークレット(CoT)推論プロセスの両方を同時に出力する。
- 参考スコア(独自算出の注目度): 57.767536707234036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event stream based scene text recognition is a newly arising research topic in recent years which performs better than the widely used RGB cameras in extremely challenging scenarios, especially the low illumination, fast motion. Existing works either adopt end-to-end encoder-decoder framework or large language models for enhanced recognition, however, they are still limited by the challenges of insufficient interpretability and weak contextual logical reasoning. In this work, we propose a novel chain-of-thought reasoning based event stream scene text recognition framework, termed ESTR-CoT. Specifically, we first adopt the vision encoder EVA-CLIP (ViT-G/14) to transform the input event stream into tokens and utilize a Llama tokenizer to encode the given generation prompt. A Q-former is used to align the vision token to the pre-trained large language model Vicuna-7B and output both the answer and chain-of-thought (CoT) reasoning process simultaneously. Our framework can be optimized using supervised fine-tuning in an end-to-end manner. In addition, we also propose a large-scale CoT dataset to train our framework via a three stage processing (i.e., generation, polish, and expert verification). This dataset provides a solid data foundation for the development of subsequent reasoning-based large models. Extensive experiments on three event stream STR benchmark datasets (i.e., EventSTR, WordArt*, IC15*) fully validated the effectiveness and interpretability of our proposed framework. The source code and pre-trained models will be released on https://github.com/Event-AHU/ESTR-CoT.
- Abstract(参考訳): イベントストリームに基づくシーンテキスト認識は近年,特に低照度,高速動作といった極めて困難なシナリオにおいて,広く使用されているRGBカメラよりも優れた性能を発揮する,新たな研究トピックである。
既存の作業では、エンド・ツー・エンドのエンコーダ・デコーダ・フレームワークや、拡張認識のための大規模言語モデルが採用されているが、しかしながら、不十分な解釈可能性と弱い文脈論理的推論の課題によって制限されている。
本研究では,イベントストリームシーンのテキスト認識フレームワークESTR-CoTを提案する。
具体的には、まず視覚エンコーダEVA-CLIP(ViT-G/14)を採用し、入力イベントストリームをトークンに変換し、Llamaトークンーを使用して与えられた生成プロンプトをエンコードする。
Qフォーマーは、事前訓練された大言語モデルVicuna-7Bにビジョントークンを整列させ、応答とチェーン・オブ・シークレット(CoT)推論プロセスの両方を同時に出力する。
我々のフレームワークは、エンドツーエンドで教師付き微調整を使って最適化できる。
さらに,3段階の処理(生成,研磨,専門家による検証など)を通じてフレームワークをトレーニングするための大規模CoTデータセットも提案する。
このデータセットは、その後の推論に基づく大規模モデルの開発のための、確かなデータ基盤を提供する。
3つのイベントストリームSTRベンチマークデータセット(EventSTR、WordArt*、IC15*)に対する大規模な実験により、提案フレームワークの有効性と解釈性を完全に検証した。
ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/ESTR-CoT.comでリリースされる。
関連論文リスト
- Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - A Context-Driven Training-Free Network for Lightweight Scene Text Segmentation and Recognition [32.142713322062306]
テキスト認識システムは、広範囲のトレーニングを必要とする大規模なエンドツーエンドアーキテクチャに依存しており、リアルタイムシナリオでは極めて高価である。
本稿では,冗長計算を最小化しつつ,事前学習したテキスト認識器の強みを生かした,学習不要なプラグイン・アンド・プレイフレームワークを提案する。
提案手法では,文脈に基づく理解と注目に基づくセグメンテーションのステージを導入し,画素レベルの候補テキスト領域を改良する。
論文 参考訳(メタデータ) (2025-03-19T18:51:01Z) - EventSTR: A Benchmark Dataset and Baselines for Event Stream based Scene Text Recognition [39.12227212510573]
シーンテキスト認識アルゴリズムは、低照度、動きのぼかし、散らかった背景などの難易度に敏感なRGBカメラに基づいて開発されている。
本研究では,バイオインスパイアされたイベントカメラを用いて,大規模なベンチマークデータセットであるEventSTRを収集・注釈することで,シーンテキストを認識することを提案する。
また,SimC-ESTRと呼ばれるイベントベースのシーンテキスト認識フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-13T07:16:16Z) - Semantic-Aware Frame-Event Fusion based Pattern Recognition via Large
Vision-Language Models [15.231177830711077]
セマンティックラベル,RGBフレーム,イベントストリームを統合した新しいパターン認識フレームワークを提案する。
セマンティックなラベルを扱うために,素早い工学を通して言語記述に変換する。
マルチモーダルトランスフォーマーネットワークを用いたRGB/Event機能とセマンティック機能を統合する。
論文 参考訳(メタデータ) (2023-11-30T14:35:51Z) - CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model [55.321010757641524]
CLIP4STRは,CLIPのイメージエンコーダとテキストエンコーダ上に構築された,シンプルで効果的なSTRメソッドである。
モデルサイズ、事前トレーニングデータ、トレーニングデータの観点からCLIP4STRをスケールし、13のSTRベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-05-23T12:51:20Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。