論文の概要: GLANCE: Gaze-Led Attention Network for Compressed Edge-inference
- arxiv url: http://arxiv.org/abs/2603.15717v1
- Date: Mon, 16 Mar 2026 15:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.906944
- Title: GLANCE: Gaze-Led Attention Network for Compressed Edge-inference
- Title(参考訳): GLANCE:圧縮エッジ推論のための Gaze-Led Attention Network
- Authors: Neeraj Solanki, Hong Ding, Sepehr Tabrizchi, Ali Shafiee Sarvestani, Shaahin Angizi, David Z. Pan, Arman Roohi,
- Abstract要約: AR/VRシステムにおけるリアルタイムオブジェクト検出は、厳格な電力予算内で10ms未満のレイテンシを必要とする、計算上の重要な制約に直面している。
生体の葉の視覚にインスパイアされた2段階のパイプラインを提案する。このパイプラインは、異なる重みのないニューラルネットワークを組み合わせ、超効率的な視線推定と、注意誘導された関心の領域検出を行う。
- 参考スコア(独自算出の注目度): 10.229095428511654
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-time object detection in AR/VR systems faces critical computational constraints, requiring sub-10\,ms latency within tight power budgets. Inspired by biological foveal vision, we propose a two-stage pipeline that combines differentiable weightless neural networks for ultra-efficient gaze estimation with attention-guided region-of-interest object detection. Our approach eliminates arithmetic-intensive operations by performing gaze tracking through memory lookups rather than multiply-accumulate computations, achieving an angular error of $8.32^{\circ}$ with only 393 MACs and 2.2 KiB of memory per frame. Gaze predictions guide selective object detection on attended regions, reducing computational burden by 40-50\% and energy consumption by 65\%. Deployed on the Arduino Nano 33 BLE, our system achieves 48.1\% mAP on COCO (51.8\% on attended objects) while maintaining sub-10\,ms latency, meeting stringent AR/VR requirements by improving the communication time by $\times 177$. Compared to the global YOLOv12n baseline, which achieves 39.2\%, 63.4\%, and 83.1\% accuracy for small, MEDium, and LARGE objects, respectively, the ROI-based method yields 51.3\%, 72.1\%, and 88.1\% under the same settings. This work shows that memory-centric architectures with explicit attention modeling offer better efficiency and accuracy for resource-constrained wearable platforms than uniform processing.
- Abstract(参考訳): AR/VRシステムにおけるリアルタイムオブジェクト検出は、厳格な電力予算内で、サブ10\,msレイテンシを必要とする、重要な計算制約に直面している。
生体の葉の視覚にインスパイアされた2段階のパイプラインを提案する。このパイプラインは、異なる重みのないニューラルネットワークを組み合わせ、超効率的な視線推定と、注意誘導された関心の領域検出を行う。
提案手法では,複数累積計算ではなく,メモリルックアップによる視線追跡を行うことにより,演算集約処理を排除し,角誤差が8.32^{\circ}$で,フレームあたり393MACと2.2KiBである。
注視予測は、出席地における選択的物体検出を誘導し、計算負担を40~50%削減し、エネルギー消費を65~5%削減する。
Arduino Nano 33 BLE上にデプロイしたシステムでは,COCO上の48.1\% mAP(参加者オブジェクトの51.8\%)を実現し,サブ10\,msレイテンシを保ち,通信時間を177ドル改善することで,厳しいAR/VR要件を満たす。
グローバルな YOLOv12n ベースラインは 39.2\%、63.4\%、83.1\% の精度で、それぞれ小さい、MEDium と LARGE のオブジェクトに対して達成され、ROI ベースの手法では 51.3\%、72.1\%、88.1\% が同じ設定で生成される。
この研究は、メモリ中心アーキテクチャが一様処理よりもリソース制約のあるウェアラブルプラットフォームに対して、より効率と正確性を提供することを示している。
関連論文リスト
- Memory-efficient Low-latency Remote Photoplethysmography through Temporal-Spatial State Space Duality [15.714133129768323]
ME-rは時間空間空間双対性に基づくメモリ効率のアルゴリズムである。
最小の計算オーバーヘッドを維持しながら、顔フレーム間の微妙な周期的な変動を効率的に捉える。
我々のソリューションは3.6MBのメモリ使用率と9.46msのレイテンシでリアルタイムの推論を可能にする。
論文 参考訳(メタデータ) (2025-04-02T14:34:04Z) - SenseExpo: Efficient Autonomous Exploration with Prediction Information from Lightweight Neural Networks [3.6404856388891793]
SenseExpoは、軽量な予測ネットワークに基づく効率的な自律探査フレームワークである。
我々の最小モデルでは、U-netやLaMaよりもKTHデータセットの性能が向上している。
論文 参考訳(メタデータ) (2025-03-20T10:07:51Z) - KAN-RCBEVDepth: A multi-modal fusion algorithm in object detection for autonomous driving [2.382388777981433]
本稿では, 自律走行における3次元物体検出の高速化を目的としたkan-RCBEVDepth法を提案する。
我々のユニークなBird’s Eye Viewベースのアプローチは、検出精度と効率を大幅に改善します。
コードはurlhttps://www.laitiamo.com/laitiamo/RCBEVDepth-KANでリリースされる。
論文 参考訳(メタデータ) (2024-08-04T16:54:49Z) - Quantized Neural Networks for Low-Precision Accumulation with Guaranteed
Overflow Avoidance [68.8204255655161]
本稿では,推定時のアキュムレータの精度を下げる際に,数値オーバーフローを回避する量子化学習アルゴリズムを提案する。
本手法は,浮動小数点点ベースラインに対するモデル精度を維持しつつ,アキュムレータの精度を低減できることを示す。
論文 参考訳(メタデータ) (2023-01-31T02:46:57Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - EAutoDet: Efficient Architecture Search for Object Detection [110.99532343155073]
EAutoDetフレームワークは、1.4GPU日でオブジェクト検出のための実用的なバックボーンとFPNアーキテクチャを検出できる。
本稿では,一方のエッジ上での候補演算の重みを共有し,それらを一つの畳み込みに集約することでカーネル再利用手法を提案する。
特に、発見されたアーキテクチャは最先端のオブジェクト検出NAS法を超越し、120 FPSで40.1 mAP、49.2 mAP、41.3 FPSをCOCOテストデブセットで達成している。
論文 参考訳(メタデータ) (2022-03-21T05:56:12Z) - Oriented R-CNN for Object Detection [61.78746189807462]
本研究では、オブジェクト指向R-CNNと呼ばれる、効果的でシンプルなオブジェクト指向オブジェクト検出フレームワークを提案する。
第1段階では,高品質な指向型提案をほぼ無償で直接生成する指向型領域提案ネットワーク(指向RPN)を提案する。
第2段階は、R-CNNヘッダーで、興味のある領域(オブジェクト指向のRoI)を精製し、認識する。
論文 参考訳(メタデータ) (2021-08-12T12:47:43Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z) - Sound Event Detection with Binary Neural Networks on Tightly
Power-Constrained IoT Devices [20.349809458335532]
サウンドイベント検出(SED)は、消費者およびスマートシティアプリケーションのホットトピックです。
Deep Neural Networksに基づく既存のアプローチは非常に効果的ですが、メモリ、電力、スループットの面で非常に要求が高いです。
本稿では,高エネルギー効率なRISC-V(8+1)コアGAP8マイクロコントローラと,極端量子化と小プリントバイナリニューラルネットワーク(BNN)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2021-01-12T12:38:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。