論文の概要: Scene Text Detection and Recognition "in light of" Challenging Environmental Conditions using Aria Glasses Egocentric Vision Cameras
- arxiv url: http://arxiv.org/abs/2507.16330v1
- Date: Tue, 22 Jul 2025 08:12:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.022338
- Title: Scene Text Detection and Recognition "in light of" Challenging Environmental Conditions using Aria Glasses Egocentric Vision Cameras
- Title(参考訳): Aria Glass Egocentric Vision Cameras を用いた環境条件下でのシーンテキストの検出と認識
- Authors: Joseph De Mathia, Carlos Francisco Moreno-García,
- Abstract要約: Scene Text Detection and Recognition (STDR) は、自我中心の視覚レンズを通じて簡単に選択できる。
本稿では, 現実シナリオにおけるSTDRアルゴリズムの性能に, 照明, 距離, 解像度などの環境変数がどのような影響を及ぼすかを検討する。
- 参考スコア(独自算出の注目度): 0.7366405857677226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In an era where wearable technology is reshaping applications, Scene Text Detection and Recognition (STDR) becomes a straightforward choice through the lens of egocentric vision. Leveraging Meta's Project Aria smart glasses, this paper investigates how environmental variables, such as lighting, distance, and resolution, affect the performance of state-of-the-art STDR algorithms in real-world scenarios. We introduce a novel, custom-built dataset captured under controlled conditions and evaluate two OCR pipelines: EAST with CRNN, and EAST with PyTesseract. Our findings reveal that resolution and distance significantly influence recognition accuracy, while lighting plays a less predictable role. Notably, image upscaling emerged as a key pre-processing technique, reducing Character Error Rate (CER) from 0.65 to 0.48. We further demonstrate the potential of integrating eye-gaze tracking to optimise processing efficiency by focusing on user attention zones. This work not only benchmarks STDR performance under realistic conditions but also lays the groundwork for adaptive, user-aware AR systems. Our contributions aim to inspire future research in robust, context-sensitive text recognition for assistive and research-oriented applications, such as asset inspection and nutrition analysis. The code is available at https://github.com/josepDe/Project_Aria_STR.
- Abstract(参考訳): ウェアラブル技術がアプリケーションの形を変えつつある時代において、Scene Text Detection and Recognition(STDR)は、自我中心の視覚レンズを通じて、簡単に選択できる。
本稿では,MetaのProject Ariaスマートグラスを活用し,照明,距離,解像度などの環境変数が実世界のシナリオにおける最先端STDRアルゴリズムの性能に与える影響について検討する。
制御条件下でキャプチャした新しいカスタムデータセットを導入し、CRNNによるEASTとPyTesseractによるEASTの2つのOCRパイプラインを評価する。
以上の結果から,解像度と距離は認識精度に大きく影響し,照明は予測不可能な役割を担っていることが明らかとなった。
特に、画像アップスケーリングは重要な前処理技術として現れ、キャラクタエラー率(CER)を0.65から0.48に下げた。
さらに、ユーザの注意領域に着目して、視線追跡を統合し、処理効率を最適化する可能性を実証する。
この作業は、現実的な条件下でSTDRのパフォーマンスをベンチマークするだけでなく、適応的でユーザ対応のARシステムの基礎となる。
我々の貢献は、アセットインスペクションや栄養分析といった、支援的、研究指向のアプリケーションのための、堅牢で文脈に敏感なテキスト認識における将来の研究を刺激することを目的としている。
コードはhttps://github.com/josepDe/Project_Aria_STRで公開されている。
関連論文リスト
- Point Cloud Recombination: Systematic Real Data Augmentation Using Robotic Targets for LiDAR Perception Validation [0.0]
仮想シミュレーションでは、制御された条件下で任意のシーンを生成することができるが、物理的なセンサー特性は欠如している。
実世界のデータは真のセンサーリアリズムを提供するが、影響要因の制御は少ない。
既存のアプローチでは、シーン間でオブジェクトを転送することで、現実のポイントクラウドデータの増大によってこの問題に対処している。
制御された実験室で測定された物理的対象物から取得した点雲を統合することにより,捕獲された点雲シーンを体系的に増強する点雲再結合を提案する。
論文 参考訳(メタデータ) (2025-05-05T09:00:16Z) - Evaluation of Environmental Conditions on Object Detection using Oriented Bounding Boxes for AR Applications [7.022872089444935]
拡張現実(AR)におけるシーン分析と物体認識の役割
性能と処理時間を改善するために,検出・認識深層ネットワークを備えた配向境界ボックスを用いた新しい手法が提案されている。
その結果, 提案手法は, 試験条件のほとんどにおいて, 平均精度が向上し, 小型物体の精度が向上する傾向が示唆された。
論文 参考訳(メタデータ) (2023-06-29T09:17:58Z) - AVOIDDS: Aircraft Vision-based Intruder Detection Dataset and Simulator [37.579437595742995]
AVOIDDSは、視覚に基づく航空機の検知・回避問題に対する現実的な物体検出ベンチマークである。
各種照明条件を有する侵入機の光実写画像72,000枚からなるラベル付きデータセットを提供する。
また、このデータセットのスライス上でトレーニングされたモデルを評価し、環境条件の変化に対する性能の変化を特定するインタフェースも提供する。
論文 参考訳(メタデータ) (2023-06-19T23:58:07Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - Meta-UDA: Unsupervised Domain Adaptive Thermal Object Detection using
Meta-Learning [64.92447072894055]
赤外線(IR)カメラは、照明条件や照明条件が悪ければ頑丈である。
既存のUDA手法を改善するためのアルゴリズムメタ学習フレームワークを提案する。
KAISTおよびDSIACデータセットのための最先端熱検出器を作成した。
論文 参考訳(メタデータ) (2021-10-07T02:28:18Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z) - Object-based Illumination Estimation with Rendering-aware Neural
Networks [56.01734918693844]
個々の物体とその局所画像領域のRGBD外観から高速環境光推定手法を提案する。
推定照明により、仮想オブジェクトは実際のシーンと一貫性のあるシェーディングでARシナリオでレンダリングできる。
論文 参考訳(メタデータ) (2020-08-06T08:23:19Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z) - Image Processing Based Scene-Text Detection and Recognition with
Tesseract [0.0]
本研究は,自然画像における単語の検出と認識に焦点を当てる。
このプロジェクトは80%以上の正確な文字認識率を達成した。
本稿では、開発段階、主な課題、そしてプロジェクトの興味深い発見について概説する。
論文 参考訳(メタデータ) (2020-04-17T06:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。