Fugu-MT 論文翻訳(概要): EgoQR: Efficient QR Code Reading in Egocentric Settings

論文の概要: EgoQR: Efficient QR Code Reading in Egocentric Settings

arxiv url: http://arxiv.org/abs/2410.05497v1
Date: Mon, 7 Oct 2024 21:06:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 18:18:05.016436
Title: EgoQR: Efficient QR Code Reading in Egocentric Settings
Title（参考訳）: EgoQR:エゴセントリック設定での効率的なQRコード読み込み
Authors: Mohsen Moslehpour, Yichao Lu, Pierce Chuang, Ashish Shenoy, Debojeet Chatterjee, Abhay Harpale, Srihari Jayakumar, Vikas Bhardwaj, Seonghyeon Nam, Anuj Kumar,
Abstract要約: 本稿では,エゴセントリック画像からQRコードを読み取る新しいシステムであるEgoQRを紹介する。当社のアプローチは,デバイス上で高解像度の画像を操作するために設計された,検出と復号の2つの主要コンポーネントで構成されている。我々は,エゴセントリックな画像のデータセットに対するアプローチを評価し,既存のQRコードリーダの状況と比較して,コードの読みやすさが34%向上したことを示す。
参考スコア（独自算出の注目度）: 9.522585805664233
License: http://creativecommons.org/licenses/by/4.0/
Abstract: QR codes have become ubiquitous in daily life, enabling rapid information exchange. With the increasing adoption of smart wearable devices, there is a need for efficient, and friction-less QR code reading capabilities from Egocentric point-of-views. However, adapting existing phone-based QR code readers to egocentric images poses significant challenges. Code reading from egocentric images bring unique challenges such as wide field-of-view, code distortion and lack of visual feedback as compared to phones where users can adjust the position and framing. Furthermore, wearable devices impose constraints on resources like compute, power and memory. To address these challenges, we present EgoQR, a novel system for reading QR codes from egocentric images, and is well suited for deployment on wearable devices. Our approach consists of two primary components: detection and decoding, designed to operate on high-resolution images on the device with minimal power consumption and added latency. The detection component efficiently locates potential QR codes within the image, while our enhanced decoding component extracts and interprets the encoded information. We incorporate innovative techniques to handle the specific challenges of egocentric imagery, such as varying perspectives, wider field of view, and motion blur. We evaluate our approach on a dataset of egocentric images, demonstrating 34% improvement in reading the code compared to an existing state of the art QR code readers.
Abstract（参考訳）: QRコードは日常的にユビキタスになり、迅速な情報交換を可能にしている。スマートウェアラブルデバイスの採用が増えるにつれ、Egoセントリックな視点から効率よく、摩擦のないQRコードを読み取る能力が求められている。しかし、既存の電話ベースのQRコードリーダーをエゴセントリックなイメージに適応させることは、大きな課題となる。エゴセントリック画像からのコード読み込みは、ユーザーが位置やフレーミングを調整できる携帯電話と比較して、視野の広さ、コードの歪み、視覚的フィードバックの欠如といった、ユニークな課題をもたらす。さらに、ウェアラブルデバイスは、計算、電力、メモリなどのリソースに制約を課している。これらの課題に対処するために、エゴセントリックな画像からQRコードを読み取る新しいシステムであるEgoQRを紹介し、ウェアラブルデバイスへの展開に適している。当社のアプローチは2つの主要コンポーネントで構成されている。検出と復号化であり、最小消費電力で高解像度の画像をデバイス上で動作させるように設計されている。検出コンポーネントは、画像内の潜在的なQRコードを効率よく検出し、強化された復号化コンポーネントは、符号化された情報を抽出し、解釈する。我々は、様々な視点、広い視野、動きのぼやけなど、エゴセントリックなイメージの特定の課題に対処する革新的な手法を取り入れた。我々は,エゴセントリックな画像のデータセットに対するアプローチを評価し,既存のQRコードリーダーと比較して,コードの読みやすさが34%向上したことを示す。

関連論文リスト

CIVQLLIE: Causal Intervention with Vector Quantization for Low-Light Image Enhancement [5.948286668586509]
現在の低照度画像強調法は重大な課題に直面している。 CIVQLLIEは、因果推論による離散表現学習のパワーを活用する新しいフレームワークである。
論文参考訳（メタデータ） (2025-08-05T11:36:39Z)
Scalable Image Tokenization with Index Backpropagation Quantization [74.15447383432262]
インデックスバックプロパゲーション量子化(IBQ)は、すべてのコードブック埋め込みとビジュアルエンコーダの共同最適化のための新しいVQ手法である。 IBQは、ビジュアルトークンのスケーラブルなトレーニングを可能にし、初めて、高次元(256ドル)で高利用率の大規模コードブックを実現する。
論文参考訳（メタデータ） (2024-12-03T18:59:10Z)
Face2QR: A Unified Framework for Aesthetic, Face-Preserving, and Scannable QR Code Generation [33.57668243458616]
Face2QRは、美学、顔のアイデンティティ、スキャナビリティをブレンドするパーソナライズされたQRコードを生成するための、新しいパイプラインである。第一に、IDを精製したQR統合は、背景スタイリングと顔 IDをシームレスに連動させる。第二に、IDを意識したQR ReShuffle(IDRS)は、顔IDとQRパターンの衝突を効果的に修正する。第三に、ID保存Scannability Enhancement(IDSE)は遅延コードの最適化を通じてスキャニングを大幅に強化する。
論文参考訳（メタデータ） (2024-11-28T16:35:16Z)
Reconstructive Visual Instruction Tuning [64.91373889600136]
リコンストラクティブ・ビジュアル・インストラクション・チューニング(ROSS)は、視覚中心の監視信号を利用する大型マルチモーダル・モデル(LMM)のファミリーである。入力画像の潜在表現を再構成し、正確なRGB値を直接回帰するのを避ける。経験的に、ROSSは、異なるビジュアルエンコーダと言語モデルに対して、一貫して大幅に改善されている。
論文参考訳（メタデータ） (2024-10-12T15:54:29Z)
See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文参考訳（メタデータ） (2024-09-29T06:21:05Z)
UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文参考訳（メタデータ） (2024-09-06T08:02:43Z)
ESIQA: Perceptual Quality Assessment of Vision-Pro-based Egocentric Spatial Images [70.68629648595677]
エゴセントリックな画像やビデオは、立体視のXRコンテンツの魅力的な形態として現れつつある。自我中心空間画像に対する画像品質評価(IQA)研究はいまだに欠落している。本稿では,エゴセントリック空間画像品質評価データベース (ESQAD) を構築し,エゴセントリック空間画像を対象とした最初のIQAデータベースである。
論文参考訳（メタデータ） (2024-07-31T06:20:21Z)
Text2QR: Harmonizing Aesthetic Customization and Scanning Robustness for Text-Guided QR Code Generation [38.281805719692194]
デジタル時代には、QRコードは仮想空間と物理領域を繋ぐリンチピンとして機能する。一般的な方法は、カスタマイズとスキャナビリティのバランスをとるという、本質的な課題に対処します。本稿では,安定拡散モデルを利用した先駆的アプローチであるText2QRを紹介する。
論文参考訳（メタデータ） (2024-03-11T06:03:31Z)
SSR-Encoder: Encoding Selective Subject Representation for Subject-Driven Generation [39.84456803546365]
SSRエンコーダ(SSR-Encoder)は、単一のまたは複数の参照画像から任意の対象を選択的にキャプチャするように設計された新しいアーキテクチャである。テストタイムの微調整を必要とせずに、テキストやマスクなど、さまざまなクエリのモダリティに応答する。 SSRエンコーダはモデルの一般化性と効率によって特徴付けられ、様々なカスタムモデルや制御モジュールに対応している。
論文参考訳（メタデータ） (2023-12-26T14:39:11Z)
Dual Associated Encoder for Face Restoration [68.49568459672076]
低品質(LQ)画像から顔の詳細を復元するために,DAEFRという新しいデュアルブランチフレームワークを提案する。提案手法では,LQ入力から重要な情報を抽出する補助的なLQ分岐を導入する。合成と実世界の両方のデータセットに対するDAEFRの有効性を評価する。
論文参考訳（メタデータ） (2023-08-14T17:58:33Z)
Collaborative Auto-encoding for Blind Image Quality Assessment [17.081262827258943]
ブラインド画像品質評価(BIQA)は、重要な現実世界のアプリケーションにおいて難しい問題である。近年、ディープニューラルネットワーク(DNN)による強力な表現を活用しようとする試みは、主観的な注釈付きデータの欠如によって妨げられている。本稿では,この基本的な障害を克服する新しいBIQA法を提案する。
論文参考訳（メタデータ） (2023-05-24T03:45:03Z)
Towards Accurate Image Coding: Improved Autoregressive Image Generation with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文参考訳（メタデータ） (2023-05-19T14:56:05Z)
A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision [93.90545426665999]
マルチモーダルコンピュータビジョンにおけるマルチタスク学習のための自動回帰デコーダについて詳しく検討する。鍵となる発見は、凍結した事前訓練されたエンコーダの上で学んだ小さなデコーダが驚くほどうまく機能していることである。これはデコーダに自然言語で事前訓練された視覚モデルと対話するように教えるものであると見なすことができる。
論文参考訳（メタデータ） (2023-03-30T13:42:58Z)
Medical visual question answering using joint self-supervised learning [8.817054025763325]
エンコーダは、自己アテンション機構で画像-テキスト二重モードに埋め込まれる。デコーダはエンコーダの上部に接続され、小型の医療用VQAデータセットを使用して微調整される。
論文参考訳（メタデータ） (2023-02-25T12:12:22Z)
An End-to-end Method for Producing Scanning-robust Stylized QR Codes [45.35370585928748]
そこで我々はArtCoderという新しいエンドツーエンド手法を提案し,QRコードをスタイリングする。実験の結果,スタイリングQRコードは視覚効果とスキャニング・ロバスト性の両方において高品質であることがわかった。
論文参考訳（メタデータ） (2020-11-16T09:38:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。