論文の概要: EgoQR: Efficient QR Code Reading in Egocentric Settings
- arxiv url: http://arxiv.org/abs/2410.05497v1
- Date: Mon, 7 Oct 2024 21:06:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 18:18:05.016436
- Title: EgoQR: Efficient QR Code Reading in Egocentric Settings
- Title(参考訳): EgoQR:エゴセントリック設定での効率的なQRコード読み込み
- Authors: Mohsen Moslehpour, Yichao Lu, Pierce Chuang, Ashish Shenoy, Debojeet Chatterjee, Abhay Harpale, Srihari Jayakumar, Vikas Bhardwaj, Seonghyeon Nam, Anuj Kumar,
- Abstract要約: 本稿では,エゴセントリック画像からQRコードを読み取る新しいシステムであるEgoQRを紹介する。
当社のアプローチは,デバイス上で高解像度の画像を操作するために設計された,検出と復号の2つの主要コンポーネントで構成されている。
我々は,エゴセントリックな画像のデータセットに対するアプローチを評価し,既存のQRコードリーダの状況と比較して,コードの読みやすさが34%向上したことを示す。
- 参考スコア(独自算出の注目度): 9.522585805664233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: QR codes have become ubiquitous in daily life, enabling rapid information exchange. With the increasing adoption of smart wearable devices, there is a need for efficient, and friction-less QR code reading capabilities from Egocentric point-of-views. However, adapting existing phone-based QR code readers to egocentric images poses significant challenges. Code reading from egocentric images bring unique challenges such as wide field-of-view, code distortion and lack of visual feedback as compared to phones where users can adjust the position and framing. Furthermore, wearable devices impose constraints on resources like compute, power and memory. To address these challenges, we present EgoQR, a novel system for reading QR codes from egocentric images, and is well suited for deployment on wearable devices. Our approach consists of two primary components: detection and decoding, designed to operate on high-resolution images on the device with minimal power consumption and added latency. The detection component efficiently locates potential QR codes within the image, while our enhanced decoding component extracts and interprets the encoded information. We incorporate innovative techniques to handle the specific challenges of egocentric imagery, such as varying perspectives, wider field of view, and motion blur. We evaluate our approach on a dataset of egocentric images, demonstrating 34% improvement in reading the code compared to an existing state of the art QR code readers.
- Abstract(参考訳): QRコードは日常的にユビキタスになり、迅速な情報交換を可能にしている。
スマートウェアラブルデバイスの採用が増えるにつれ、Egoセントリックな視点から効率よく、摩擦のないQRコードを読み取る能力が求められている。
しかし、既存の電話ベースのQRコードリーダーをエゴセントリックなイメージに適応させることは、大きな課題となる。
エゴセントリック画像からのコード読み込みは、ユーザーが位置やフレーミングを調整できる携帯電話と比較して、視野の広さ、コードの歪み、視覚的フィードバックの欠如といった、ユニークな課題をもたらす。
さらに、ウェアラブルデバイスは、計算、電力、メモリなどのリソースに制約を課している。
これらの課題に対処するために、エゴセントリックな画像からQRコードを読み取る新しいシステムであるEgoQRを紹介し、ウェアラブルデバイスへの展開に適している。
当社のアプローチは2つの主要コンポーネントで構成されている。検出と復号化であり、最小消費電力で高解像度の画像をデバイス上で動作させるように設計されている。
検出コンポーネントは、画像内の潜在的なQRコードを効率よく検出し、強化された復号化コンポーネントは、符号化された情報を抽出し、解釈する。
我々は、様々な視点、広い視野、動きのぼやけなど、エゴセントリックなイメージの特定の課題に対処する革新的な手法を取り入れた。
我々は,エゴセントリックな画像のデータセットに対するアプローチを評価し,既存のQRコードリーダーと比較して,コードの読みやすさが34%向上したことを示す。
関連論文リスト
- Reconstructive Visual Instruction Tuning [64.91373889600136]
リコンストラクティブ・ビジュアル・インストラクション・チューニング(ROSS)は、視覚中心の監視信号を利用する大型マルチモーダル・モデル(LMM)のファミリーである。
入力画像の潜在表現を再構成し、正確なRGB値を直接回帰するのを避ける。
経験的に、ROSSは、異なるビジュアルエンコーダと言語モデルに対して、一貫して大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-12T15:54:29Z) - See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Text2QR: Harmonizing Aesthetic Customization and Scanning Robustness for
Text-Guided QR Code Generation [38.281805719692194]
デジタル時代には、QRコードは仮想空間と物理領域を繋ぐリンチピンとして機能する。
一般的な方法は、カスタマイズとスキャナビリティのバランスをとるという、本質的な課題に対処します。
本稿では,安定拡散モデルを利用した先駆的アプローチであるText2QRを紹介する。
論文 参考訳(メタデータ) (2024-03-11T06:03:31Z) - SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation [39.84456803546365]
SSRエンコーダ(SSR-Encoder)は、単一のまたは複数の参照画像から任意の対象を選択的にキャプチャするように設計された新しいアーキテクチャである。
テストタイムの微調整を必要とせずに、テキストやマスクなど、さまざまなクエリのモダリティに応答する。
SSRエンコーダはモデルの一般化性と効率によって特徴付けられ、様々なカスタムモデルや制御モジュールに対応している。
論文 参考訳(メタデータ) (2023-12-26T14:39:11Z) - Dual Associated Encoder for Face Restoration [68.49568459672076]
低品質(LQ)画像から顔の詳細を復元するために,DAEFRという新しいデュアルブランチフレームワークを提案する。
提案手法では,LQ入力から重要な情報を抽出する補助的なLQ分岐を導入する。
合成と実世界の両方のデータセットに対するDAEFRの有効性を評価する。
論文 参考訳(メタデータ) (2023-08-14T17:58:33Z) - Collaborative Auto-encoding for Blind Image Quality Assessment [17.081262827258943]
ブラインド画像品質評価(BIQA)は、重要な現実世界のアプリケーションにおいて難しい問題である。
近年、ディープニューラルネットワーク(DNN)による強力な表現を活用しようとする試みは、主観的な注釈付きデータの欠如によって妨げられている。
本稿では,この基本的な障害を克服する新しいBIQA法を提案する。
論文 参考訳(メタデータ) (2023-05-24T03:45:03Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision [93.90545426665999]
マルチモーダルコンピュータビジョンにおけるマルチタスク学習のための自動回帰デコーダについて詳しく検討する。
鍵となる発見は、凍結した事前訓練されたエンコーダの上で学んだ小さなデコーダが驚くほどうまく機能していることである。
これはデコーダに自然言語で事前訓練された視覚モデルと対話するように教えるものであると見なすことができる。
論文 参考訳(メタデータ) (2023-03-30T13:42:58Z) - Medical visual question answering using joint self-supervised learning [8.817054025763325]
エンコーダは、自己アテンション機構で画像-テキスト二重モードに埋め込まれる。
デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
論文 参考訳(メタデータ) (2023-02-25T12:12:22Z) - An End-to-end Method for Producing Scanning-robust Stylized QR Codes [45.35370585928748]
そこで我々はArtCoderという新しいエンドツーエンド手法を提案し,QRコードをスタイリングする。
実験の結果,スタイリングQRコードは視覚効果とスキャニング・ロバスト性の両方において高品質であることがわかった。
論文 参考訳(メタデータ) (2020-11-16T09:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。