論文の概要: Evaluating OCR Performance for Assistive Technology: Effects of Walking Speed, Camera Placement, and Camera Type
- arxiv url: http://arxiv.org/abs/2602.02223v1
- Date: Mon, 02 Feb 2026 15:28:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.254667
- Title: Evaluating OCR Performance for Assistive Technology: Effects of Walking Speed, Camera Placement, and Camera Type
- Title(参考訳): 補助技術のOCR性能評価:歩行速度, カメラ配置, カメラタイプの影響
- Authors: Junchi Feng, Nikhil Ballem, Mahya Beheshti, Giles Hamilton-Fletcher, Todd Hudson, Maurizio Porfiri, William H. Seiple, John-Ross Rizzo,
- Abstract要約: 静的および動的条件下で光学文字認識(OCR)の性能を系統的に評価した。
4基のOCRエンジンは、Google Vision、PaddleOCR 3.0、EasyOCR、Tesseractの4つの距離と視角の精度を評価するためにベンチマークされた。
Google Visionの全体的な精度は最高で、PaddleOCRは最強のオープンソース代替品として遅れを取っている。
- 参考スコア(独自算出の注目度): 1.751956845237091
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optical character recognition (OCR), which converts printed or handwritten text into machine-readable form, is widely used in assistive technology for people with blindness and low vision. Yet, most evaluations rely on static datasets that do not reflect the challenges of mobile use. In this study, we systematically evaluated OCR performance under both static and dynamic conditions. Static tests measured detection range across distances of 1-7 meters and viewing angles of 0-75 degrees horizontally. Dynamic tests examined the impact of motion by varying walking speed from slow (0.8 m/s) to very fast (1.8 m/s) and comparing three camera mounting positions: head-mounted, shoulder-mounted, and hand-held. We evaluated both a smartphone and smart glasses, using the phone's main and ultra-wide cameras. Four OCR engines were benchmarked to assess accuracy at different distances and viewing angles: Google Vision, PaddleOCR 3.0, EasyOCR, and Tesseract. PaddleOCR 3.0 was then used to evaluate accuracy at different walking speeds. Accuracy was computed at the character level using the Levenshtein ratio against manually defined ground truth. Results showed that recognition accuracy declined with increased walking speed and wider viewing angles. Google Vision achieved the highest overall accuracy, with PaddleOCR close behind as the strongest open-source alternative. Across devices, the phone's main camera achieved the highest accuracy, and a shoulder-mounted placement yielded the highest average among body positions; however, differences among shoulder, head, and hand were not statistically significant.
- Abstract(参考訳): 光文字認識(OCR)は、印刷や手書きのテキストを機械可読形に変換するもので、視覚障害者の補助技術として広く使われている。
しかし、ほとんどの評価は、モバイル利用の課題を反映しない静的データセットに依存している。
本研究では,静的および動的条件下でのOCR性能を系統的に評価した。
静止実験では、観測範囲は1-7メートル、視角は0-75度であった。
ダイナミックテストでは、歩行速度を遅い(0.8m/s)から非常に速い(1.8m/s)に変化させることで、頭部装着、肩装着、ハンドヘルドの3つのカメラ装着位置を比較した。
スマートフォンとスマートグラスの両方を、メインカメラとウルトラワイドカメラを使って評価しました。
4基のOCRエンジンは、Google Vision、PaddleOCR 3.0、EasyOCR、Tesseractの4つの距離と視角の精度を評価するためにベンチマークされた。
その後、PaddleOCR 3.0は異なる歩行速度で精度を評価するために使用された。
レヴェンシュテイン比を用いて文字レベルで、手動で定義された基底真理に対して精度を計算した。
その結果,歩行速度の増大と視角の広さにより認識精度が低下した。
Google Visionの全体的な精度は最高で、PaddleOCRは最強のオープンソース代替品として遅れを取っている。
デバイス全体では、スマートフォンのメインカメラが最も精度が高く、肩に装着された配置は、体位の中では最高に高かったが、肩、頭、手の違いは統計的に有意ではなかった。
関連論文リスト
- SDGE: Stereo Guided Depth Estimation for 360$^\circ$ Camera Sets [65.64958606221069]
マルチカメラシステムは、360ドル周の知覚を達成するために、しばしば自律走行に使用される。
360ドル(約3万3000円)のカメラセットは、しばしば制限または低品質のオーバーラップ領域を持ち、画像全体に対してマルチビューステレオメソッドを実現する。
重なりの重なりに多視点ステレオ結果を明示的に利用することにより、全画像の深さ推定を強化するステレオガイド深度推定法(SGDE)を提案する。
論文 参考訳(メタデータ) (2024-02-19T02:41:37Z) - W-HMR: Monocular Human Mesh Recovery in World Space with Weak-Supervised Calibration [57.37135310143126]
モノクロ画像からの3次元運動回復のための従来の手法は、カメラ座標に依存するため、しばしば不足する。
W-HMRは、身体の歪み情報に基づいて「適切な」焦点長を予測する弱教師付き校正法である。
また,世界空間における可視的再構築のために,身体の向きを補正する OrientCorrect モジュールを提案する。
論文 参考訳(メタデータ) (2023-11-29T09:02:07Z) - Pixel-wise Smoothing for Certified Robustness against Camera Motion
Perturbations [45.576866560987405]
本稿では,3D-2Dプロジェクティブ・トランスフォーメーションのロバスト性を証明するための枠組みを提案する。
本手法は3次元物理空間ではなく2次元画素空間上の滑らかな分布を利用する。
提案手法は,約80%の精度を達成し,投影された画像フレームの30%しか利用していない。
論文 参考訳(メタデータ) (2023-09-22T19:15:49Z) - Robust Frame-to-Frame Camera Rotation Estimation in Crowded Scenes [8.061773364318313]
本稿では,携帯型モノクロビデオから,混み合った現実世界のシーンにおけるカメラ回転推定手法を提案する。
我々は、17の動画シーケンスに対して、高精度で厳密に検証された地上真実を持つ新しいデータセットとベンチマークを提供する。
これは、混み合ったシーンに対する強力な新しいパフォーマンスポイントであり、コンピュータビジョンにとって重要な設定である。
論文 参考訳(メタデータ) (2023-09-15T17:44:07Z) - Robust Localization with Visual-Inertial Odometry Constraints for
Markerless Mobile AR [2.856126556871729]
本稿では、絶対的なポーズ回帰器とローカルなVIOトラッキングシステムを組み合わせた、マーカーレスモバイルARのための新しいフレームワークであるVIO-APRを紹介する。
VIO-APRはVIOを用いてAPRとAPRの信頼性を評価し、VIOドリフトの識別と補償を行う。
私たちは、その能力を実証するためにUnityを使用してモバイルARアプリケーションにVIO-APRを実装します。
論文 参考訳(メタデータ) (2023-08-10T07:21:35Z) - Fast and Accurate Camera Scene Detection on Smartphones [51.424407411660376]
本稿では,11K以上の手動クロール画像を含むカメラシーン検出データセット(CamSDD)を提案する。
本研究では,このデータセット上で上位3の99.5%の精度を示す,効率的かつNPU対応のCNNモデルを提案する。
論文 参考訳(メタデータ) (2021-05-17T14:06:21Z) - Towards On-Device Face Recognition in Body-worn Cameras [0.0]
本研究では,ボディカメラを用いた顔認識のための軽量MobileNet-V2, EfficientNet-B0, LightCNN-9, LightCNN-29モデルを評価する。
実験はbwcfaceデータセットで公開されている。
論文 参考訳(メタデータ) (2021-04-07T22:24:57Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z) - SqueezeFacePoseNet: Lightweight Face Verification Across Different Poses for Mobile Platforms [44.78440647722169]
顔認識技術は、モバイルデバイスでカメラが利用できることを考えると、信頼性が高く堅牢なユーザー認証を提供することができる。
ディープ畳み込みニューラルネットワークは、多くの正確な顔認証アーキテクチャをもたらすが、その典型的なサイズ(数百メガバイト)は、ダウンロード可能なモバイルアプリケーションに組み込むことができない。
我々は,より大規模なモデルと比較して,十分な精度で動作可能な数メガバイトの軽量な顔認識ネットワークを開発した。
論文 参考訳(メタデータ) (2020-07-16T19:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。