論文の概要: Seeing the Signs: A Survey of Edge-Deployable OCR Models for Billboard Visibility Analysis
- arxiv url: http://arxiv.org/abs/2507.11730v1
- Date: Tue, 15 Jul 2025 20:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.150772
- Title: Seeing the Signs: A Survey of Edge-Deployable OCR Models for Billboard Visibility Analysis
- Title(参考訳): 看板視認性分析のためのエッジ展開型OCRモデルの検討
- Authors: Maciej Szankin, Vidhyananth Venkatasamy, Lihang Ying,
- Abstract要約: Multimodal Vision-Language Models (VLM) は、明示的な検出ステップなしで、エンドツーエンドのシーン理解を提供する。
CNNパイプラインは、計算コストのごく一部で、収穫されたテキストの競合精度を依然として達成している。
今後の研究を促進するため、天気予報ベンチマークと評価コードを公開する。
- 参考スコア(独自算出の注目度): 0.9012198585960443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Outdoor advertisements remain a critical medium for modern marketing, yet accurately verifying billboard text visibility under real-world conditions is still challenging. Traditional Optical Character Recognition (OCR) pipelines excel at cropped text recognition but often struggle with complex outdoor scenes, varying fonts, and weather-induced visual noise. Recently, multimodal Vision-Language Models (VLMs) have emerged as promising alternatives, offering end-to-end scene understanding with no explicit detection step. This work systematically benchmarks representative VLMs - including Qwen 2.5 VL 3B, InternVL3, and SmolVLM2 - against a compact CNN-based OCR baseline (PaddleOCRv4) across two public datasets (ICDAR 2015 and SVT), augmented with synthetic weather distortions to simulate realistic degradation. Our results reveal that while selected VLMs excel at holistic scene reasoning, lightweight CNN pipelines still achieve competitive accuracy for cropped text at a fraction of the computational cost-an important consideration for edge deployment. To foster future research, we release our weather-augmented benchmark and evaluation code publicly.
- Abstract(参考訳): 屋外広告は現代マーケティングにとって重要な媒体であり続けているが、現実の状況下でのビルボードのテキストの可視性を正確に検証することは依然として困難である。
従来の光学文字認識(OCR)パイプラインは、収穫されたテキスト認識に優れるが、複雑な屋外シーン、様々なフォント、天候による視覚ノイズに悩まされることが多い。
近年,マルチモーダル・ビジョン・ランゲージ・モデル (VLM) が有望な代替手段として登場し,露骨な検出ステップを伴わないエンドツーエンドのシーン理解が実現されている。
この研究は、Qwen 2.5 VL 3B、InternVL3、SmolVLM2を含む代表VLMを、2つの公開データセット(ICDAR 2015とSVT)にわたるコンパクトなCNNベースのOCRベースライン(PaddleOCRv4)に対して体系的にベンチマークし、現実的な劣化をシミュレートするために合成気象歪みを付加する。
その結果,選択されたVLMは全体像推論において優れるが,軽量なCNNパイプラインは依然として計算コストのごく一部で競合精度を達成し,エッジ配置の重要な考慮事項であることがわかった。
今後の研究を促進するため、天気予報ベンチマークと評価コードを公開する。
関連論文リスト
- Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs [80.03370593724422]
Out-of-Distribution (OOD) は未知のクラスからサンプルを識別する。
現在の手法では、否定的なテキストとIDラベルを比較するなど、OOD検出中にモード内距離を組み込むことが多い。
テキストおよび視覚的視点から一貫したモーダル距離拡張を体系的に利用するフレームワークであるInterNegを提案する。
論文 参考訳(メタデータ) (2026-03-03T05:44:47Z) - SimpleOCR: Rendering Visualized Questions to Teach MLLMs to Read [43.28273039987167]
テキストクエリを画像に直接描画するVisualized-Question (VQ) 設定を導入する。
強力なOCR能力を持つにもかかわらず、モデルはVQ設定で最大12.7%の性能低下に悩まされる。
学習プロセスに構造的制約を課すプラグアンドプレイトレーニング戦略であるSimpleOCRを提案する。
論文 参考訳(メタデータ) (2026-02-25T21:36:30Z) - EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition [54.55914886780534]
イベントストリームに基づく視覚的位置認識(VPR)は、従来の可視光カメラの不安定性に対して、低照度、過剰露光、高速モーションといった困難な条件下で魅力的な解決策を提供する、新たな研究方向である。
イベントストリームベースのVPR用に特別に設計された高品質なベンチマークであるEPRBenchを紹介する。
EPRBenchは10Kのイベントシーケンスと65Kのイベントフレームで構成され、ハンドヘルドと車載のセットアップを使用して収集され、さまざまな視点、気象条件、照明シナリオで現実世界の課題を包括的にキャプチャする。
論文 参考訳(メタデータ) (2026-02-13T13:25:05Z) - VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text? [51.02924254085878]
VLM(Vision-Language Models)は、テキスト入力と視覚入力のクロスモーダル理解において、優れたパフォーマンスを実現している。
VISTA-Benchは、マルチモーダル認識、推論、および非モーダル理解領域のベンチマークである。
論文 参考訳(メタデータ) (2026-02-04T17:48:55Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - RT-VLM: Re-Thinking Vision Language Model with 4-Clues for Real-World Object Recognition Robustness [2.9979091009694088]
現実世界のデプロイメントは、しばしば、最新のオブジェクト認識モデルをドメインシフトに公開し、精度を著しく低下させる。
この劣化を軽減するため、我々はRT-VLM(Re-Thinking Vision Language Model)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-09-01T02:13:00Z) - ROVI: A VLM-LLM Re-Captioned Dataset for Open-Vocabulary Instance-Grounded Text-to-Image Generation [23.118080583803266]
ROVIは,画像生成のための高品質な合成データセットである。
私たちの重要なイノベーションは、リキャプション(recaptioning)と呼ばれる戦略です。
実証的目的のために、ROVIで訓練されたテキスト・ツー・イメージモデルGLIGENは、例えば精度、迅速な忠実度、美的品質において最先端の代替品よりも著しく優れている。
論文 参考訳(メタデータ) (2025-08-01T18:19:51Z) - On the Reliability of Vision-Language Models Under Adversarial Frequency-Domain Perturbations [53.611451075703314]
VLM(Vision-Language Models)は、視覚コンテンツ推論のための知覚モジュールとして使われることが多い。
これらの特徴変換が,画像の自動キャプションタスクの信頼度/ディープフェイク検出にどのような影響を及ぼすかを示す。
論文 参考訳(メタデータ) (2025-07-30T05:41:29Z) - Scene Text Detection and Recognition "in light of" Challenging Environmental Conditions using Aria Glasses Egocentric Vision Cameras [0.7366405857677226]
Scene Text Detection and Recognition (STDR) は、自我中心の視覚レンズを通じて簡単に選択できる。
本稿では, 現実シナリオにおけるSTDRアルゴリズムの性能に, 照明, 距離, 解像度などの環境変数がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-07-22T08:12:00Z) - Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models [22.43132625619281]
劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。
このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。
Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
論文 参考訳(メタデータ) (2025-06-25T06:44:07Z) - TokBench: Evaluating Your Visual Tokenizer before Visual Generation [75.38270351179018]
さまざまな画像トークンやVAEに対して,テキストと顔の復元品質をさまざまな尺度で分析する。
以上の結果から, 現代の視覚トークン化器は, 特に小規模では, 細粒度保存に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-23T17:52:16Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - Benchmarking Vision-Language Models on Optical Character Recognition in Dynamic Video Environments [3.5936169218390703]
本稿では、動的ビデオ環境における光学的文字認識(OCR)タスクの視覚言語モデル(VLM)を評価するためのオープンソースのベンチマークを提案する。
コードエディタ,ニュースブロードキャスト,YouTubeビデオ,広告など,さまざまな領域にまたがる1,477の注釈付きフレームを含むキュレートデータセットを提案する。
論文 参考訳(メタデータ) (2025-02-10T13:20:19Z) - Extrapolated Urban View Synthesis Benchmark [53.657271730352214]
光シミュレーターは視覚中心型自動運転車(AV)の訓練と評価に不可欠である
中心となるのはノベルビュー合成(英語版)(NVS)であり、これはAVの広範かつ連続的なポーズ分布に対応するために、様々な目に見えない視点を生成する能力である。
近年の3次元ガウス・スプラッティングのような放射場の発展は、リアルタイムなリアルタイムレンダリングを実現し、大規模ドライビングシーンのモデリングに広く利用されている。
自動運転車と都市ロボットシミュレーション技術の進歩を支援するために、データを公開します。
論文 参考訳(メタデータ) (2024-12-06T18:41:39Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。