論文の概要: Seeing the Signs: A Survey of Edge-Deployable OCR Models for Billboard Visibility Analysis
- arxiv url: http://arxiv.org/abs/2507.11730v1
- Date: Tue, 15 Jul 2025 20:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.150772
- Title: Seeing the Signs: A Survey of Edge-Deployable OCR Models for Billboard Visibility Analysis
- Title(参考訳): 看板視認性分析のためのエッジ展開型OCRモデルの検討
- Authors: Maciej Szankin, Vidhyananth Venkatasamy, Lihang Ying,
- Abstract要約: Multimodal Vision-Language Models (VLM) は、明示的な検出ステップなしで、エンドツーエンドのシーン理解を提供する。
CNNパイプラインは、計算コストのごく一部で、収穫されたテキストの競合精度を依然として達成している。
今後の研究を促進するため、天気予報ベンチマークと評価コードを公開する。
- 参考スコア(独自算出の注目度): 0.9012198585960443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Outdoor advertisements remain a critical medium for modern marketing, yet accurately verifying billboard text visibility under real-world conditions is still challenging. Traditional Optical Character Recognition (OCR) pipelines excel at cropped text recognition but often struggle with complex outdoor scenes, varying fonts, and weather-induced visual noise. Recently, multimodal Vision-Language Models (VLMs) have emerged as promising alternatives, offering end-to-end scene understanding with no explicit detection step. This work systematically benchmarks representative VLMs - including Qwen 2.5 VL 3B, InternVL3, and SmolVLM2 - against a compact CNN-based OCR baseline (PaddleOCRv4) across two public datasets (ICDAR 2015 and SVT), augmented with synthetic weather distortions to simulate realistic degradation. Our results reveal that while selected VLMs excel at holistic scene reasoning, lightweight CNN pipelines still achieve competitive accuracy for cropped text at a fraction of the computational cost-an important consideration for edge deployment. To foster future research, we release our weather-augmented benchmark and evaluation code publicly.
- Abstract(参考訳): 屋外広告は現代マーケティングにとって重要な媒体であり続けているが、現実の状況下でのビルボードのテキストの可視性を正確に検証することは依然として困難である。
従来の光学文字認識(OCR)パイプラインは、収穫されたテキスト認識に優れるが、複雑な屋外シーン、様々なフォント、天候による視覚ノイズに悩まされることが多い。
近年,マルチモーダル・ビジョン・ランゲージ・モデル (VLM) が有望な代替手段として登場し,露骨な検出ステップを伴わないエンドツーエンドのシーン理解が実現されている。
この研究は、Qwen 2.5 VL 3B、InternVL3、SmolVLM2を含む代表VLMを、2つの公開データセット(ICDAR 2015とSVT)にわたるコンパクトなCNNベースのOCRベースライン(PaddleOCRv4)に対して体系的にベンチマークし、現実的な劣化をシミュレートするために合成気象歪みを付加する。
その結果,選択されたVLMは全体像推論において優れるが,軽量なCNNパイプラインは依然として計算コストのごく一部で競合精度を達成し,エッジ配置の重要な考慮事項であることがわかった。
今後の研究を促進するため、天気予報ベンチマークと評価コードを公開する。
関連論文リスト
- ROVI: A VLM-LLM Re-Captioned Dataset for Open-Vocabulary Instance-Grounded Text-to-Image Generation [23.118080583803266]
ROVIは,画像生成のための高品質な合成データセットである。
私たちの重要なイノベーションは、リキャプション(recaptioning)と呼ばれる戦略です。
実証的目的のために、ROVIで訓練されたテキスト・ツー・イメージモデルGLIGENは、例えば精度、迅速な忠実度、美的品質において最先端の代替品よりも著しく優れている。
論文 参考訳(メタデータ) (2025-08-01T18:19:51Z) - On the Reliability of Vision-Language Models Under Adversarial Frequency-Domain Perturbations [53.611451075703314]
VLM(Vision-Language Models)は、視覚コンテンツ推論のための知覚モジュールとして使われることが多い。
これらの特徴変換が,画像の自動キャプションタスクの信頼度/ディープフェイク検出にどのような影響を及ぼすかを示す。
論文 参考訳(メタデータ) (2025-07-30T05:41:29Z) - Scene Text Detection and Recognition "in light of" Challenging Environmental Conditions using Aria Glasses Egocentric Vision Cameras [0.7366405857677226]
Scene Text Detection and Recognition (STDR) は、自我中心の視覚レンズを通じて簡単に選択できる。
本稿では, 現実シナリオにおけるSTDRアルゴリズムの性能に, 照明, 距離, 解像度などの環境変数がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-07-22T08:12:00Z) - Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models [22.43132625619281]
劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。
このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。
Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
論文 参考訳(メタデータ) (2025-06-25T06:44:07Z) - TokBench: Evaluating Your Visual Tokenizer before Visual Generation [75.38270351179018]
さまざまな画像トークンやVAEに対して,テキストと顔の復元品質をさまざまな尺度で分析する。
以上の結果から, 現代の視覚トークン化器は, 特に小規模では, 細粒度保存に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-23T17:52:16Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments [3.5936169218390703]
本稿では、動的ビデオ環境における光学的文字認識(OCR)タスクの視覚言語モデル(VLM)を評価するためのオープンソースのベンチマークを提案する。
コードエディタ,ニュースブロードキャスト,YouTubeビデオ,広告など,さまざまな領域にまたがる1,477の注釈付きフレームを含むキュレートデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:20:19Z) - Extrapolated Urban View Synthesis Benchmark [53.657271730352214]
光シミュレーターは視覚中心型自動運転車(AV)の訓練と評価に不可欠である
中心となるのはノベルビュー合成(英語版)(NVS)であり、これはAVの広範かつ連続的なポーズ分布に対応するために、様々な目に見えない視点を生成する能力である。
近年の3次元ガウス・スプラッティングのような放射場の発展は、リアルタイムなリアルタイムレンダリングを実現し、大規模ドライビングシーンのモデリングに広く利用されている。
自動運転車と都市ロボットシミュレーション技術の進歩を支援するために、データを公開します。
論文 参考訳(メタデータ) (2024-12-06T18:41:39Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。