Fugu-MT 論文翻訳(概要): Efficient Depth Estimation for Unstable Stereo Camera Systems on AR Glasses

論文の概要: Efficient Depth Estimation for Unstable Stereo Camera Systems on AR Glasses

arxiv url: http://arxiv.org/abs/2411.10013v2
Date: Tue, 29 Apr 2025 04:11:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-01 00:39:29.400691
Title: Efficient Depth Estimation for Unstable Stereo Camera Systems on AR Glasses
Title（参考訳）: ARガラスを用いた不安定ステレオカメラシステムの高精度深度推定
Authors: Yongfan Liu, Hyoukjun Kwon,
Abstract要約: 近年のハードウェアにおけるMLアクセラレーション(GPUとNPU)を考慮した補正とコストボリュームへのアプローチを開発する。提案手法に基づき,MultiHeadDepth と HomoDepth を開発した。修正されていないイメージを直接処理できるHomoDepthは、エンドツーエンドのレイテンシを44.5%削減する。
参考スコア（独自算出の注目度）: 1.086544864007391
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Stereo depth estimation is a fundamental component in augmented reality (AR), which requires low latency for real-time processing. However, preprocessing such as rectification and non-ML computations such as cost volume require significant amount of latency exceeding that of an ML model itself, which hinders the real-time processing required by AR. Therefore, we develop alternative approaches to the rectification and cost volume that consider ML acceleration (GPU and NPUs) in recent hardware. For pre-processing, we eliminate it by introducing homography matrix prediction network with a rectification positional encoding (RPE), which delivers both low latency and robustness to unrectified images. For cost volume, we replace it with a group-pointwise convolution-based operator and approximation of cosine similarity based on layernorm and dot product. Based on our approaches, we develop MultiHeadDepth (replacing cost volume) and HomoDepth (MultiHeadDepth + removing pre-processing) models. MultiHeadDepth provides 11.8-30.3% improvements in accuracy and 22.9-25.2% reduction in latency compared to a state-of-the-art depth estimation model for AR glasses from industry. HomoDepth, which can directly process unrectified images, reduces the end-to-end latency by 44.5%. We also introduce a multi-task learning method to handle misaligned stereo inputs on HomoDepth, which reduces the AbsRel error by 10.0-24.3%. The overall results demonstrate the efficacy of our approaches, which not only reduce the inference latency but also improve the model performance. Our code is available at https://github.com/UCI-ISA-Lab/MultiHeadDepth-HomoDepth
Abstract（参考訳）: ステレオ深度推定は、リアルタイム処理に低レイテンシを必要とする拡張現実(AR)の基本コンポーネントである。しかし、修正やコストボリュームなどの非ML計算などの前処理は、MLモデル自体よりも相当なレイテンシを必要とするため、ARが必要とするリアルタイム処理を妨げている。そこで我々は,近年のハードウェアにおけるMLアクセラレーション(GPUとNPU)を考慮した補正とコストボリュームの代替手法を開発した。事前処理では、修正位置符号化(RPE)を備えたホモグラフィ行列予測ネットワークを導入し、未修正画像に対して低レイテンシとロバスト性の両方を提供する。コスト・ボリュームについては、グループ・ポイント・コンボリューションに基づく演算子と、層ノルムおよびドット積に基づくコサイン類似性の近似に置き換える。提案手法に基づいて,MultiHeadDepth(コストの削減)モデルとHomoDepth(MultiHeadDepth + remove pre-processing)モデルを開発した。 MultiHeadDepthは、11.8-30.3%の精度向上と22.9-25.2%のレイテンシ削減を提供する。修正されていないイメージを直接処理できるHomoDepthは、エンドツーエンドのレイテンシを44.5%削減する。また,HomoDepth上でのステレオ入力の不整合を処理するマルチタスク学習手法を導入し,AbsRelの誤差を10.0-24.3%削減した。その結果,提案手法の有効性が示され,推論遅延を低減できるだけでなく,モデルの性能も向上することがわかった。私たちのコードはhttps://github.com/UCI-ISA-Lab/MultiHeadDepth-HomoDepthで利用可能です。

関連論文リスト

TRIM: Scalable 3D Gaussian Diffusion Inference with Temporal and Spatial Trimming [10.73970270886881]
3次元ガウス拡散モデルの最近の進歩は、時間集約的な認知とポストデノゲーション処理に悩まされている。我々は、$textbfT$rajectory $textbfR$eductionと$textbfI$nstance $textbfM$ask denoisingを提案する。
論文参考訳（メタデータ） (2025-11-20T18:49:09Z)
ReSplat: Learning Recurrent Gaussian Splats [98.14472247275512]
ReSplatはフィードフォワードリカレントガウシアンスプラッティングモデルであり、明示的に勾配を計算せずに3Dガウシアンを反復的に洗練する。我々は16倍のサブサンプル空間で動作するコンパクトな再構成モデルを導入し、以前のピクセルごとのガウスモデルよりも16倍のガウスモデルを生成する。提案手法は,ガウス数を大幅に削減し,レンダリング速度を向上させるとともに,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-10-09T17:59:59Z)
EDFFDNet: Towards Accurate and Efficient Unsupervised Multi-Grid Image Registration [17.190325630307097]
本稿では指数デカイ基底関数を用いた自由形変形を用いた指数デカイ自由形変形ネットワーク(EDFFDNet)を提案する。密接な相互作用をスパースなものにすることで、ASMAはパラメータを減らし、精度を向上させる。 EDFFDNetは、パラメータ、メモリ、総ランタイムをそれぞれ70.5%、32.6%、33.7%削減することを示した。 EDFFDNet-2はより少ない計算コストを維持しながらPSNRを1.06dB改善する。
論文参考訳（メタデータ） (2025-09-09T12:30:51Z)
Pseudo Depth Meets Gaussian: A Feed-forward RGB SLAM Baseline [64.42938561167402]
本稿では,3次元ガウス型SLAMとフィードフォワードリカレント予測モジュールを組み合わせたオンライン3次元再構成手法を提案する。このアプローチは、遅いテスト時間の最適化を高速なネットワーク推論に置き換え、トラッキング速度を大幅に改善する。提案手法は,最先端のSplaTAMと同等の性能を示しながら,追跡時間を90%以上削減する。
論文参考訳（メタデータ） (2025-08-06T16:16:58Z)
MLRU++: Multiscale Lightweight Residual UNETR++ with Attention for Efficient 3D Medical Image Segmentation [3.014234061484863]
セグメント化精度と計算効率のバランスをとるために設計されたマルチスケール軽量Residual UNETR++アーキテクチャ。 4つの公開ベンチマークデータセットの実験は、MLRU++が最先端のパフォーマンスを達成することを示した。 MLRU++は, 3次元画像分割タスクに対して, 実用的で高性能なソリューションを提供する。
論文参考訳（メタデータ） (2025-07-22T00:30:44Z)
Motion-Aware Adaptive Pixel Pruning for Efficient Local Motion Deblurring [87.56382172827526]
画像内のぼやけた領域を識別するトレーニング可能なマスク予測器を提案する。また、相対的な画素変位を運動軌跡に変換するフレーム内運動解析器を開発した。提案手法は, 再建損失, 再生損失, および注釈付きぼかしマスクで導かれるマスク損失の組合せを用いて, エンドツーエンドで訓練する。
論文参考訳（メタデータ） (2025-07-10T12:38:27Z)
High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。本手法は,最先端モデルのFLOPを24～43%削減する。
論文参考訳（メタデータ） (2025-05-11T13:18:03Z)
Second-order Optimization of Gaussian Splats with Importance Sampling [51.95046424364725]
3D Gaussian Splatting (3DGS) は、高品質で高速な推論時間のため、新しいビューレンダリングに広く用いられている。本稿では,Levenberg-Marquardt (LM) と Conjugate Gradient (CG) に基づく新しい2階最適化手法を提案する。提案手法は標準LMよりも3倍の高速化を実現し,ガウス数が少ない場合のAdamを6倍の6倍の速さで上回る。
論文参考訳（メタデータ） (2025-04-17T12:52:08Z)
Image Coding for Machines via Feature-Preserving Rate-Distortion Optimization [27.97760974010369]
本稿では,特徴量間の距離を歪み指標として,タスク損失に対する圧縮の影響を低減する手法を提案する。我々は、ブロックベースのエンコーダを用いて歪み項を計算可能にするために、RDOの定式化を単純化する。 SSEに基づくRDOと比較して、同じコンピュータビジョンの精度で最大10%のビットレートを節約できる。
論文参考訳（メタデータ） (2025-04-03T02:11:26Z)
Efficient Density Control for 3D Gaussian Splatting [3.6379656024631215]
3D Gaussian Splatting (3DGS) は新規なビュー合成において優れた性能を示した。本研究では,(1)ガウシアンの位置,形状,不透明度を正確に制御するLong-Axis Split,(2)ガウシアンに対する不完全性の再設定後の回復速度の差を利用したリカバリ・アウェア・プルーニングを提案する。
論文参考訳（メタデータ） (2024-11-15T12:12:56Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
Joint Pruning and Channel-wise Mixed-Precision Quantization for Efficient Deep Neural Networks [10.229120811024162]
ディープニューラルネットワーク(DNN)は、エッジデバイスへのデプロイメントに重大な課題をもたらす。この問題に対処する一般的なアプローチは、プルーニングと混合精度量子化である。そこで本研究では,軽量な勾配探索を用いて共同で適用するための新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-01T08:07:02Z)
Taming 3DGS: High-Quality Radiance Fields with Limited Resources [50.92437599516609]
3D Gaussian Splatting (3DGS)は、高速で解釈可能で高忠実なレンダリングで新規ビュー合成を変換した。予算で3DGSモデルをトレーニングし、レンダリングするという課題に取り組みます。我々は、勾配計算と属性更新のための高速で数値的に等価な解を導出する。
論文参考訳（メタデータ） (2024-06-21T20:44:23Z)
Towards More Accurate Diffusion Model Acceleration with A Timestep Aligner [84.97253871387028]
数千のデノナイジングステップを用いて画像を生成するために定式化された拡散モデルは通常、遅い推論速度に悩まされる。最小限のコストで特定の区間に対するより正確な積分方向を見つけるのに役立つ時間ステップ整合器を提案する。実験により,我々のプラグイン設計を効率的に訓練し,様々な最先端加速度法の推論性能を向上できることが示された。
論文参考訳（メタデータ） (2023-10-14T02:19:07Z)
Surrogate Lagrangian Relaxation: A Path To Retrain-free Deep Neural Network Pruning [9.33753001494221]
ネットワークプルーニングは、ディープニューラルネットワークの計算コストとモデルサイズの削減に広く用いられている手法である。本稿では,サロゲートラグランジアン緩和に基づく体系的な重み付け最適化手法を開発する。
論文参考訳（メタデータ） (2023-04-08T22:48:30Z)
Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文参考訳（メタデータ） (2022-11-27T19:50:37Z)
LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile Devices [45.84356762066717]
Raspberry Pi 4では,小重量 (1.4MB) と短い推論時間 (27FPS) のエンドツーエンド学習モデルを開発した。モデル性能を向上させるため,R2 cropと呼ばれる簡易かつ効果的なデータ拡張戦略を提案する。特に、LiteDepthという名前のソリューションは、MAI&AIM2022 Monocular Depth Estimation Challengeで2位にランクされ、Ssi-RMSEは0.311、RMSEは3.79、推論時間はRaspberry Pi 4で37$ms$テストされている。
論文参考訳（メタデータ） (2022-09-02T11:38:28Z)
BDIS: Bayesian Dense Inverse Searching Method for Real-Time Stereo Surgical Image Matching [2.990820994368054]
本稿では,一般的なMISタスクに対して,CPUレベルの事前自由ステレオマッチングアルゴリズムを提案する。手術画像用のシングルコアCPU (i5-9400) を用いて, 640*480の画像に対して平均17Hzを実現する。 MIS のベースライン ELAS よりも近いか高い精度で出力が小さいが、4-5倍高速である。
論文参考訳（メタデータ） (2022-05-06T10:50:49Z)
Learning to Fit Morphable Models [12.469605679847085]
学習最適化の最近の進歩の上に構築し、古典的なレバンス・マルカルトアルゴリズムに触発された更新ルールを提案する。本稿では,頭部装着装置による3次元体表面推定問題と2次元ランドマークによる顔の嵌合性に対するニューラルネットワークの有効性を示す。
論文参考訳（メタデータ） (2021-11-29T18:59:53Z)
FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文参考訳（メタデータ） (2021-07-07T13:39:08Z)
SADet: Learning An Efficient and Accurate Pedestrian Detector [68.66857832440897]
本稿では,一段検出器の検出パイプラインに対する一連の最適化手法を提案する。効率的な歩行者検出のための単発アンカーベース検出器(SADet)を形成する。構造的には単純だが、VGA解像度の画像に対して最先端の結果と20ドルFPSのリアルタイム速度を示す。
論文参考訳（メタデータ） (2020-07-26T12:32:38Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)
APQ: Joint Search for Network Architecture, Pruning and Quantization Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文参考訳（メタデータ） (2020-06-15T16:09:17Z)
A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-13T23:52:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。