論文の概要: Mobile AR Depth Estimation: Challenges & Prospects -- Extended Version
- arxiv url: http://arxiv.org/abs/2310.14437v1
- Date: Sun, 22 Oct 2023 22:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 23:40:27.319840
- Title: Mobile AR Depth Estimation: Challenges & Prospects -- Extended Version
- Title(参考訳): モバイルARの深さ推定 - 課題と展望 - 拡張バージョン
- Authors: Ashkan Ganj, Yiqin Zhao, Hang Su, Tian Guo
- Abstract要約: モバイルARにおける正確な距離深度推定を実現するための課題と機会について検討する。
新たに導入されたデータセット(ARKitScenes)上で,最先端のモノクル深度推定モデル4種を試験した。
私たちの研究は、これらの課題を探求し解決するための将来的な方向性を提供します。
- 参考スコア(独自算出の注目度): 12.887748044339913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Metric depth estimation plays an important role in mobile augmented reality
(AR). With accurate metric depth, we can achieve more realistic user
interactions such as object placement and occlusion detection. While
specialized hardware like LiDAR demonstrates its promise, its restricted
availability, i.e., only on selected high-end mobile devices, and performance
limitations such as range and sensitivity to the environment, make it less
ideal. Monocular depth estimation, on the other hand, relies solely on mobile
cameras, which are ubiquitous, making it a promising alternative for mobile AR.
In this paper, we investigate the challenges and opportunities of achieving
accurate metric depth estimation in mobile AR. We tested four different
state-of-the-art monocular depth estimation models on a newly introduced
dataset (ARKitScenes) and identified three types of challenges: hard-ware,
data, and model related challenges. Furthermore, our research provides
promising future directions to explore and solve those challenges. These
directions include (i) using more hardware-related information from the mobile
device's camera and other available sensors, (ii) capturing high-quality data
to reflect real-world AR scenarios, and (iii) designing a model architecture to
utilize the new information.
- Abstract(参考訳): 距離深度推定はモバイル拡張現実(AR)において重要な役割を果たす。
正確な計量深度で、オブジェクト配置や閉塞検出などのより現実的なユーザインタラクションを実現することができる。
LiDARのような特殊なハードウェアはその約束を証明しているが、制限された可用性、すなわち選択されたハイエンドモバイルデバイスのみ、および環境に対する範囲や感度といったパフォーマンス上の制限は、より理想的ではない。
一方、単眼深度の推定は、ユビキタスなモバイルカメラのみに依存しているため、モバイルarにとって有望な代替手段となる。
本稿では,モバイルarにおける正確な距離深度推定を実現するための課題と機会について検討する。
新たに導入されたデータセット(arkitscenes)上で,最先端の4つの深さ推定モデルをテストし,ハードウェア,データ,モデル関連の3つの課題を特定した。
さらに,本研究は今後の課題を探究し,解決する上で有望な方向性を提供する。
これらの方向は
(i)モバイルデバイスのカメラや他のセンサから、より多くのハードウェア関連情報を使用すること。
(ii)実世界のarシナリオを反映した高品質なデータ取得
(iii)新しい情報を利用するためのモデルアーキテクチャを設計すること。
関連論文リスト
- Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - Efficient Single-Image Depth Estimation on Mobile Devices, Mobile AI &
AIM 2022 Challenge: Report [108.88637766066759]
ディープラーニングベースの単一画像深度推定ソリューションは、IoTプラットフォームとスマートフォン上でリアルタイムのパフォーマンスを示すことができる。
このチャレンジで開発されたモデルは、AndroidやLinuxベースのモバイルデバイスとも互換性がある。
論文 参考訳(メタデータ) (2022-11-07T22:20:07Z) - LaMAR: Benchmarking Localization and Mapping for Augmented Reality [80.23361950062302]
異種ARデバイスでキャプチャされたリアルな軌跡とセンサストリームを共登録する,包括的キャプチャとGTパイプラインを備えた新しいベンチマークであるLaMARを紹介する。
私たちは、ヘッドマウントとハンドヘルドARデバイスで記録された多様な大規模シーンのベンチマークデータセットを公開します。
論文 参考訳(メタデータ) (2022-10-19T17:58:17Z) - Towards Multimodal Multitask Scene Understanding Models for Indoor
Mobile Agents [49.904531485843464]
本稿では,現実世界の屋内環境におけるラベル付きデータの不十分,あるいは不可能,といった主な課題について論じる。
MMISM (Multi-modality input Multi-task output Indoor Scene Understanding Model) について述べる。
MMISMは、RGB画像だけでなく、スパースライダーポイントを入力と3Dオブジェクト検出、深さ完了、人間のポーズ推定、セマンティックセグメンテーションを出力タスクとみなしている。
MMISMはシングルタスクモデルよりも同等かそれ以上の性能を示す。
論文 参考訳(メタデータ) (2022-09-27T04:49:19Z) - Depth Estimation Matters Most: Improving Per-Object Depth Estimation for
Monocular 3D Detection and Tracking [47.59619420444781]
検出・追跡を含む単眼的3D知覚へのアプローチは、LiDARベースの手法と比較して性能が劣ることが多い。
本稿では,オブジェクト(トラックレット)の複数のフレームに異なる表現(RGBと擬似LiDAR)と時間情報を組み合わせた多層融合手法を提案する。
論文 参考訳(メタデータ) (2022-06-08T03:37:59Z) - Realtime 3D Object Detection for Headsets [19.096803385184174]
移動性に配慮し,軽量かつハイブリッドな3Dオブジェクト検出フレームワークであるDeepMixを提案する。
DeepMixは、エッジ支援の2Dオブジェクト検出と、デバイス上の新しい3Dバウンディングボックス推定をインテリジェントに組み合わせている。
これにより、エンドツーエンドのレイテンシが低くなり、モバイルシナリオにおける検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2022-01-15T05:50:18Z) - Object Detection in the Context of Mobile Augmented Reality [16.49070406578342]
本稿では,VIOから得られる幾何学的情報とオブジェクト検出器からの意味情報を組み合わせて,モバイルデバイス上での物体検出性能を向上させる手法を提案する。
提案手法は,(1)画像配向補正法,(2)スケールベースフィルタリング法,(3)オンライン意味地図の3つの構成要素を含む。
その結果,汎用物体検出器の精度をデータセット上で12%向上できることがわかった。
論文 参考訳(メタデータ) (2020-08-15T05:15:00Z) - siaNMS: Non-Maximum Suppression with Siamese Networks for Multi-Camera
3D Object Detection [65.03384167873564]
サイムズネットワークは、よく知られた3Dオブジェクト検出器アプローチのパイプラインに統合される。
アソシエーションはオブジェクトの3Dボックスレグレッションを強化するために利用される。
nuScenesデータセットの実験的評価は,提案手法が従来のNMS手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2020-02-19T15:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。