論文の概要: Efficient Depth Estimation for Unstable Stereo Camera Systems on AR Glasses
- arxiv url: http://arxiv.org/abs/2411.10013v1
- Date: Fri, 15 Nov 2024 07:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:58.500709
- Title: Efficient Depth Estimation for Unstable Stereo Camera Systems on AR Glasses
- Title(参考訳): ARガラスを用いた不安定ステレオカメラシステムの高精度深度推定
- Authors: Yongfan Liu, Hyoukjun Kwon,
- Abstract要約: コストのかかるボリュームとプリプロセッシングに代わるハードウェアフレンドリーな代替品を開発する。
オンラインステレオ補正(前処理)のために,修正位置符号化(RPE)を用いたホモグラヒマトリクス予測ネットワークを導入する。
最適化されたコストボリュームを含むMultiHeadDepthでは、精度が11.8-30.3%向上し、レイテンシが22.9-25.2%削減された。
最適化前処理(Homograhpy + RPE)を含むHomoDepthは、未修正画像を処理し、エンドツーエンドのレイテンシを44.5%削減する。
- 参考スコア(独自算出の注目度): 1.086544864007391
- License:
- Abstract: Stereo depth estimation is a fundamental component in augmented reality (AR) applications. Although AR applications require very low latency for their real-time applications, traditional depth estimation models often rely on time-consuming preprocessing steps such as rectification to achieve high accuracy. Also, non standard ML operator based algorithms such as cost volume also require significant latency, which is aggravated on compute resource-constrained mobile platforms. Therefore, we develop hardware-friendly alternatives to the costly cost volume and preprocessing and design two new models based on them, MultiHeadDepth and HomoDepth. Our approaches for cost volume is replacing it with a new group-pointwise convolution-based operator and approximation of consine similarity based on layernorm and dot product. For online stereo rectification (preprocessing), we introduce homograhy matrix prediction network with a rectification positional encoding (RPE), which delivers both low latency and robustness to unrectified images, which eliminates the needs for preprocessing. Our MultiHeadDepth, which includes optimized cost volume, provides 11.8-30.3% improvements in accuracy and 22.9-25.2% reduction in latency compared to a state-of-the-art depth estimation model for AR glasses from industry. Our HomoDepth, which includes optimized preprocessing (Homograhpy + RPE) upon MultiHeadDepth, can process unrectified images and reduce the end-to-end latency by 44.5%. We adopt a multi-task learning framework to handle misaligned stereo inputs on HomoDepth, which reduces theAbsRel error by 10.0-24.3%. The results demonstrate the efficacy of our approaches in achieving both high model performance with low latency, which makes a step forward toward practical depth estimation on future AR devices.
- Abstract(参考訳): ステレオ深度推定は拡張現実(AR)アプリケーションの基本コンポーネントである。
ARアプリケーションはリアルタイムアプリケーションには非常に低レイテンシを必要とするが、従来の深度推定モデルは高い精度を達成するために修正のような時間を要する前処理ステップに依存することが多い。
また、コストボリュームのような標準のML演算子ベースのアルゴリズムは、計算リソースに制約のあるモバイルプラットフォーム上で増大する大きなレイテンシを必要とする。
そこで我々は,コストのかかるボリュームとプリプロセッシングのためのハードウェアフレンドリーな代替品を開発し,それに基づく2つの新しいモデルであるMultiHeadDepthとHomoDepthを設計する。
コストボリュームに対する我々のアプローチは、新しいグループポイントの畳み込みに基づく演算子と、層ノルムとドット積に基づくコサイン類似性の近似に置き換えることである。
オンラインステレオ補正(前処理)では,修正位置符号化(RPE)を備えたホモグラヒ行列予測ネットワークを導入し,未修正画像に対して低レイテンシとロバスト性を両立させ,前処理の必要性を排除した。
我々のMultiHeadDepthは、最適化されたコストボリュームを含み、11.8-30.3%の精度向上と22.9-25.2%のレイテンシ削減を提供する。
私たちのHomoDepthは、MultiHeadDepth上で最適化された前処理(Homograhpy + RPE)を含むもので、未修正の画像を処理し、エンドツーエンドのレイテンシを44.5%削減することができる。
我々は,HomoDepth上でのステレオ入力の不整合を処理するためにマルチタスク学習フレームワークを採用し,AbsRelの誤差を10.0-24.3%削減した。
その結果,低レイテンシで高モデル性能を実現するためのアプローチの有効性が示され,将来的なARデバイス上での実用的な深度推定への一歩を踏み出した。
関連論文リスト
- ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。
本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。
私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-11-12T11:32:56Z) - Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。
この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。
そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T08:07:02Z) - Taming 3DGS: High-Quality Radiance Fields with Limited Resources [50.92437599516609]
3D Gaussian Splatting (3DGS)は、高速で解釈可能で高忠実なレンダリングで新規ビュー合成を変換した。
予算で3DGSモデルをトレーニングし、レンダリングするという課題に取り組みます。
我々は、勾配計算と属性更新のための高速で数値的に等価な解を導出する。
論文 参考訳(メタデータ) (2024-06-21T20:44:23Z) - Surrogate Lagrangian Relaxation: A Path To Retrain-free Deep Neural
Network Pruning [9.33753001494221]
ネットワークプルーニングは、ディープニューラルネットワークの計算コストとモデルサイズの削減に広く用いられている手法である。
本稿では,サロゲートラグランジアン緩和に基づく体系的な重み付け最適化手法を開発する。
論文 参考訳(メタデータ) (2023-04-08T22:48:30Z) - LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile
Devices [45.84356762066717]
Raspberry Pi 4では,小重量 (1.4MB) と短い推論時間 (27FPS) のエンドツーエンド学習モデルを開発した。
モデル性能を向上させるため,R2 cropと呼ばれる簡易かつ効果的なデータ拡張戦略を提案する。
特に、LiteDepthという名前のソリューションは、MAI&AIM2022 Monocular Depth Estimation Challengeで2位にランクされ、Ssi-RMSEは0.311、RMSEは3.79、推論時間はRaspberry Pi 4で37$ms$テストされている。
論文 参考訳(メタデータ) (2022-09-02T11:38:28Z) - Learning to Fit Morphable Models [12.469605679847085]
学習最適化の最近の進歩の上に構築し、古典的なレバンス・マルカルトアルゴリズムに触発された更新ルールを提案する。
本稿では,頭部装着装置による3次元体表面推定問題と2次元ランドマークによる顔の嵌合性に対するニューラルネットワークの有効性を示す。
論文 参考訳(メタデータ) (2021-11-29T18:59:53Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。
効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。
構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文 参考訳(メタデータ) (2020-07-26T12:32:38Z) - APQ: Joint Search for Network Architecture, Pruning and Quantization
Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。
ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。
同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文 参考訳(メタデータ) (2020-06-15T16:09:17Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。