論文の概要: Real-Time Onboard Object Detection for Augmented Reality: Enhancing
Head-Mounted Display with YOLOv8
- arxiv url: http://arxiv.org/abs/2306.03537v1
- Date: Tue, 6 Jun 2023 09:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 16:14:14.581867
- Title: Real-Time Onboard Object Detection for Augmented Reality: Enhancing
Head-Mounted Display with YOLOv8
- Title(参考訳): 拡張現実のためのリアルタイム搭載物体検出:YOLOv8によるヘッドマウントディスプレイの実現
- Authors: Miko{\l}aj {\L}ysakowski, Kamil \.Zywanowski, Adam Banaszczyk,
Micha{\l} R. Nowicki, Piotr Skrzypczy\'nski, S{\l}awomir K. Tadeja
- Abstract要約: 本稿では,拡張現実(AR)環境における機械学習(ML)を用いたリアルタイム物体検出のためのソフトウェアアーキテクチャを提案する。
本稿では、YOLOv8モデルの画像処理パイプラインと、ヘッドセットのリソース制限エッジコンピューティングプラットフォーム上でのリアルタイム化技術について述べる。
- 参考スコア(独自算出の注目度): 2.1530718840070784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a software architecture for real-time object detection
using machine learning (ML) in an augmented reality (AR) environment. Our
approach uses the recent state-of-the-art YOLOv8 network that runs onboard on
the Microsoft HoloLens 2 head-mounted display (HMD). The primary motivation
behind this research is to enable the application of advanced ML models for
enhanced perception and situational awareness with a wearable, hands-free AR
platform. We show the image processing pipeline for the YOLOv8 model and the
techniques used to make it real-time on the resource-limited edge computing
platform of the headset. The experimental results demonstrate that our solution
achieves real-time processing without needing offloading tasks to the cloud or
any other external servers while retaining satisfactory accuracy regarding the
usual mAP metric and measured qualitative performance
- Abstract(参考訳): 本稿では,拡張現実(AR)環境における機械学習(ML)を用いたリアルタイム物体検出のためのソフトウェアアーキテクチャを提案する。
我々のアプローチでは、Microsoft HoloLens 2ヘッドマウントディスプレイ(HMD)上で動作する最新のYOLOv8ネットワークを使用します。
この研究の背後にある主な動機は、ウェアラブルでハンズフリーなARプラットフォームによる高度なMLモデルによる認識と状況認識の強化を可能にすることである。
我々は、yolov8モデルの画像処理パイプラインと、ヘッドセットのリソース制限されたエッジコンピューティングプラットフォーム上でのリアルタイム処理技術を紹介する。
実験結果から,本ソリューションは,通常のmAP測定値と測定定性性能に関して良好な精度を維持しつつ,クラウドや他の外部サーバにタスクをオフロードすることなくリアルタイム処理を実現することを示した。
関連論文リスト
- What is YOLOv9: An In-Depth Exploration of the Internal Features of the Next-Generation Object Detector [0.0]
本研究は, YOLOv9オブジェクト検出モデルに焦点をあて, アーキテクチャの革新, トレーニング方法論, 性能改善に焦点をあてる。
汎用高効率層集約ネットワークGELANやProgrammable Gradient Information PGIといった重要な進歩は、特徴抽出と勾配流を著しく向上させる。
本稿では, YOLOv9の内部特徴とその実世界の応用性について, リアルタイム物体検出の最先端技術として確立した。
論文 参考訳(メタデータ) (2024-09-12T07:46:58Z) - Lightweight Object Detection: A Study Based on YOLOv7 Integrated with
ShuffleNetv2 and Vision Transformer [0.0]
本研究は、モバイルプラットフォーム上での運用効率と速度を向上させるために、YOLOv7アルゴリズムの最適化をゼロにする。
実験結果から, 改良されたYOLOモデルは優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-04T05:29:32Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - DM-VTON: Distilled Mobile Real-time Virtual Try-On [16.35842298296878]
Distilled Mobile Real-time Virtual Try-On (DM-VTON) は、シンプルで効率的な仮想トライオンフレームワークである。
学生ネットワーク内に効率的なモバイル生成モジュールを導入し,実行時間を大幅に削減する。
実験結果から,提案手法は1台のNvidia Tesla T4 GPUで毎秒40フレームを実現することができることがわかった。
論文 参考訳(メタデータ) (2023-08-26T07:46:27Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time
Object Detection [80.11152626362109]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの仕事は、他のYOLOモデルのプラグイン・アンド・プレイ・モジュールとしても使えます。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - HMD-EgoPose: Head-Mounted Display-Based Egocentric Marker-Less Tool and
Hand Pose Estimation for Augmented Surgical Guidance [0.0]
HMD-EgoPoseは、手動とオブジェクトのポーズ推定のための単発学習に基づくアプローチである。
マーカーレスハンドと手術器具のポーズトラッキングのためのベンチマークデータセット上で,最先端の性能を示す。
論文 参考訳(メタデータ) (2022-02-24T04:07:34Z) - Analysis of voxel-based 3D object detection methods efficiency for
real-time embedded systems [93.73198973454944]
本稿では, ボクセルをベースとした2つの3次元物体検出手法について述べる。
実験の結果,これらの手法は入力点雲が遠距離にあるため,遠距離の小さな物体を検出できないことが確認できた。
この結果から,既存手法の計算のかなりの部分は,検出に寄与しないシーンの位置に着目していることが示唆された。
論文 参考訳(メタデータ) (2021-05-21T12:40:59Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - A Markerless Deep Learning-based 6 Degrees of Freedom PoseEstimation for
with Mobile Robots using RGB Data [3.4806267677524896]
本稿では,拡張現実デバイス上でリアルタイムな3Dオブジェクトローカライゼーションを実現するために,アートニューラルネットワークの状態をデプロイする手法を提案する。
本研究では,2次元入力のみを用いて物体の3次元ポーズを高速かつ正確に抽出する高速な2次元検出手法に着目する。
2D画像の6Dアノテーションとして,私たちの知る限り,最初のオープンソースツールであるアノテーションツールを開発した。
論文 参考訳(メタデータ) (2020-01-16T09:13:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。