論文の概要: Reading in the Dark: Low-light Scene Text Recognition
- arxiv url: http://arxiv.org/abs/2604.23685v1
- Date: Sun, 26 Apr 2026 12:57:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.499407
- Title: Reading in the Dark: Low-light Scene Text Recognition
- Title(参考訳): 暗黒で読む: 低照度テキスト認識
- Authors: Xuanshuo Fu, Lei Kang, Ernest Valveny, Dimosthenis Karatzas, Javier Vazquez-Corral,
- Abstract要約: 大規模低照度Scene Text RecognitionデータセットLSTRを紹介する。
光文字認識(OCR)モデルを用いた微調整とLORAに基づく微調整と,低照度画像強調(LLIE)モジュールとOCRモデルを統合する共同学習の2つの手法を探索する。
以上の結果から, 独立系LLIEモデルやOCRモデルは低照度条件下では不適切な性能を示し, 共同で訓練されたテキスト中心アプローチの利点を浮き彫りにした。
- 参考スコア(独自算出の注目度): 19.782261736974473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate text recognition in low-light environments is essential for intelligent systems in applications ranging from autonomous vehicles to smart surveillance. However, challenges such as poor illumination and noise interference remain underexplored. To address this gap, we introduce LSTR, a large-scale Low-light Scene Text Recognition dataset comprising 11,273 low-light images generated from well-lit datasets (ICDAR2015, IIIT5K, and WordArt), along with ESTR, which includes 60 real nighttime street-scene images in English and Spanish for exclusive evaluation. We explore two solution strategies: (1) employing Optical Character Recognition (OCR) models with fine-tuning and LoRA-based fine-tuning and (2) a joint training strategy that integrates a low-light image enhancement (LLIE) module with an OCR model. In particular, we propose a novel re-render LLIE (RLLIE) module, which demonstrates improved performance on real-world data. Through extensive experimentation, we analyze various training strategies and address a key research question: \emph{How bright is bright enough for effective scene text recognition?} Our results indicate that standalone LLIE or OCR models perform inadequately under low-light conditions, highlighting the advantages of specialized, jointly trained text-centric approaches. Additionally, we provide a comprehensive benchmark to support future research in robust low-light scene text recognition. https://huggingface.co/datasets/lumimusta/Low-light_Scene_Text_Dataset.
- Abstract(参考訳): 低照度環境での正確なテキスト認識は、自動運転車からスマート監視まで、アプリケーションにおけるインテリジェントシステムにとって不可欠である。
しかし、照明不足やノイズ干渉といった課題は未解決のままである。
このギャップに対処するため、LSTRは、高輝度データセット(ICDAR2015, IIIT5K, WordArt)から生成された11,273個の低照度画像からなる大規模低照度画像認識データセットである。
光文字認識(OCR)モデルを用いた微調整とLORAに基づく微調整と,低照度画像強調(LLIE)モジュールとOCRモデルを統合する共同学習の2つの手法を探索する。
特に,実世界のデータの性能向上を示す新しい再レンダリングLLIE (RLLIE) モジュールを提案する。
大規模な実験を通じて、我々は様々なトレーニング戦略を分析し、重要な研究課題に対処する: \emph{How bright is bright enough to effective scene text recognition?
以上の結果から, 独立系LLIEモデルやOCRモデルは低照度条件下では不適切な性能を示し, 共同で訓練されたテキスト中心アプローチの利点を浮き彫りにした。
さらに,ロバストな低照度テキスト認識における将来の研究を支援するための総合的なベンチマークも提供する。
https://huggingface.co/datasets/lumimusta/Low-light_Scene_Text_Dataset
関連論文リスト
- EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition [54.55914886780534]
イベントストリームに基づく視覚的位置認識(VPR)は、従来の可視光カメラの不安定性に対して、低照度、過剰露光、高速モーションといった困難な条件下で魅力的な解決策を提供する、新たな研究方向である。
イベントストリームベースのVPR用に特別に設計された高品質なベンチマークであるEPRBenchを紹介する。
EPRBenchは10Kのイベントシーケンスと65Kのイベントフレームで構成され、ハンドヘルドと車載のセットアップを使用して収集され、さまざまな視点、気象条件、照明シナリオで現実世界の課題を包括的にキャプチャする。
論文 参考訳(メタデータ) (2026-02-13T13:25:05Z) - Scene Text Detection and Recognition "in light of" Challenging Environmental Conditions using Aria Glasses Egocentric Vision Cameras [0.7366405857677226]
Scene Text Detection and Recognition (STDR) は、自我中心の視覚レンズを通じて簡単に選択できる。
本稿では, 現実シナリオにおけるSTDRアルゴリズムの性能に, 照明, 距離, 解像度などの環境変数がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-07-22T08:12:00Z) - BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - Text in the Dark: Extremely Low-Light Text Image Enhancement [20.631833980353704]
低照度テキスト画像は自然の場面で一般的であり、シーンテキストの検出と認識が困難である。
強調中のシーンテキスト領域に注目するエッジ対応アテンションモジュールを備えた新しいエンコーダデコーダフレームワークを提案する。
提案手法は,新しいテキスト検出とエッジ再構成の損失を利用して,低レベルなシーンテキストの特徴を強調し,テキスト抽出に成功した。
論文 参考訳(メタデータ) (2024-04-22T12:39:12Z) - Seeing Text in the Dark: Algorithm and Benchmark [28.865779563872977]
そこで本研究では,暗黒領域におけるテキストのローカライズのための,効率的かつ効果的な単一ステージアプローチを提案する。
テキスト検出器の訓練段階において,制約付き学習モジュールを補助機構として導入する。
様々な場面や言語を含む任意の字形テキストのための包括的低照度データセットを提案する。
論文 参考訳(メタデータ) (2024-04-13T11:07:10Z) - BVI-Lowlight: Fully Registered Benchmark Dataset for Low-Light Video Enhancement [44.1973928137492]
本稿では,2つの低照度条件下での様々な動きシナリオにおける40のシーンからなる,新しい低照度映像データセットを提案する。
我々は、プログラム可能な電動ドリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供する。
画像ベースのポストプロセッシングによりそれらを洗練し、異なる光レベルにおけるフレームの画素ワイドアライメントを保証する。
論文 参考訳(メタデータ) (2024-02-03T00:40:22Z) - Toward Fast, Flexible, and Robust Low-Light Image Enhancement [87.27326390675155]
我々は、現実の低照度シナリオにおいて、高速でフレキシブルで頑健な鮮明化のための新しい自己校正イルミネーション(SCI)学習フレームワークを開発した。
カスケードパターンの計算負担を考慮すると、各ステージの結果の収束を実現する自己校正モジュールを構築する。
我々は,SCI固有の特性について,操作不感適応性やモデル非関係の一般性を含む包括的探索を行う。
論文 参考訳(メタデータ) (2022-04-21T14:40:32Z) - Learning Deep Context-Sensitive Decomposition for Low-Light Image
Enhancement [58.72667941107544]
典型的なフレームワークは、照明と反射を同時に推定することであるが、特徴空間にカプセル化されたシーンレベルの文脈情報を無視する。
本研究では,空間スケールにおけるシーンレベルのコンテキスト依存を生かした,コンテキスト依存型分解ネットワークアーキテクチャを提案する。
チャネル数を減らして軽量なCSDNet(LiteCSDNet)を開発する。
論文 参考訳(メタデータ) (2021-12-09T06:25:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。