論文の概要: ARPOV: Expanding Visualization of Object Detection in AR with Panoramic Mosaic Stitching
- arxiv url: http://arxiv.org/abs/2410.01055v1
- Date: Tue, 1 Oct 2024 20:29:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 23:30:27.759953
- Title: ARPOV: Expanding Visualization of Object Detection in AR with Panoramic Mosaic Stitching
- Title(参考訳): ARPOV:パノラマモザイクストッチによるARにおける物体検出の可視化
- Authors: Erin McGowan, Ethan Brewer, Claudio Silva,
- Abstract要約: ARPOVは、ARヘッドセットによってキャプチャされたビデオに合わせたオブジェクト検出モデル出力を分析するための、インタラクティブなビジュアル分析ツールである。
提案ツールでは, 望ましくないフレームを自動的にフィルタリングしながら, パノラマ縫合を利用して環境の視界を拡大する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the uses of augmented reality (AR) become more complex and widely available, AR applications will increasingly incorporate intelligent features that require developers to understand the user's behavior and surrounding environment (e.g. an intelligent assistant). Such applications rely on video captured by an AR headset, which often contains disjointed camera movement with a limited field of view that cannot capture the full scope of what the user sees at any given time. Moreover, standard methods of visualizing object detection model outputs are limited to capturing objects within a single frame and timestep, and therefore fail to capture the temporal and spatial context that is often necessary for various domain applications. We propose ARPOV, an interactive visual analytics tool for analyzing object detection model outputs tailored to video captured by an AR headset that maximizes user understanding of model performance. The proposed tool leverages panorama stitching to expand the view of the environment while automatically filtering undesirable frames, and includes interactive features that facilitate object detection model debugging. ARPOV was designed as part of a collaboration between visualization researchers and machine learning and AR experts; we validate our design choices through interviews with 5 domain experts.
- Abstract(参考訳): 拡張現実(AR)の利用がより複雑で広く利用できるようになるにつれ、ARアプリケーションは、開発者の振る舞いや環境(例えばインテリジェントアシスタント)を理解するために必要なインテリジェントな機能を、ますます取り入れていくだろう。
このようなアプリケーションは、ARヘッドセットが捉えたビデオに依存しており、多くの場合、ユーザーがいつでも見るものの完全なスコープをキャプチャできない視野が限られている、不規則なカメラの動きを含んでいる。
さらに、オブジェクト検出モデル出力を可視化する標準的な方法は、単一のフレームとタイムステップ内でオブジェクトをキャプチャすることに限定され、そのため、様々なドメインアプリケーションでしばしば必要とされる時間的・空間的コンテキストのキャプチャに失敗する。
本稿では,ARヘッドセットが捉えた映像に合わせたオブジェクト検出モデルを生成するインタラクティブな視覚解析ツールARPOVを提案する。
提案ツールでは、パノラマ縫合を利用して、望ましくないフレームを自動的にフィルタリングしながら、環境のビューを拡大し、オブジェクト検出モデルデバッグを容易にするインタラクティブ機能を備えている。
ARPOVは、可視化研究者と機械学習とAR専門家のコラボレーションの一環として設計されました。
関連論文リスト
- Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。
まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。
次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。
第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-01T14:53:36Z) - The Impact of Different Backbone Architecture on Autonomous Vehicle
Dataset [120.08736654413637]
バックボーンアーキテクチャによって抽出された特徴の質は、全体的な検出性能に大きな影響を与える可能性がある。
本研究は,KITTI,NuScenes,BDDの3つの自律走行車データセットを評価し,対象検出タスクにおける異なるバックボーンアーキテクチャの性能を比較した。
論文 参考訳(メタデータ) (2023-09-15T17:32:15Z) - Evaluation of Environmental Conditions on Object Detection using Oriented Bounding Boxes for AR Applications [7.022872089444935]
拡張現実(AR)におけるシーン分析と物体認識の役割
性能と処理時間を改善するために,検出・認識深層ネットワークを備えた配向境界ボックスを用いた新しい手法が提案されている。
その結果, 提案手法は, 試験条件のほとんどにおいて, 平均精度が向上し, 小型物体の精度が向上する傾向が示唆された。
論文 参考訳(メタデータ) (2023-06-29T09:17:58Z) - Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Teachable Reality: Prototyping Tangible Augmented Reality with Everyday
Objects by Leveraging Interactive Machine Teaching [4.019017835137353]
Teachable Realityは、任意の日常オブジェクトでインタラクティブな有形ARアプリケーションを作成するための拡張現実(AR)プロトタイプツールである。
オンデマンドコンピュータビジョンモデルを用いて、ユーザ定義の有形および外見的相互作用を識別する。
当社のアプローチは,ARプロトタイプ作成の障壁を低くすると同時に,フレキシブルで汎用的なプロトタイピング体験を可能にする。
論文 参考訳(メタデータ) (2023-02-21T23:03:49Z) - Interactive Segmentation and Visualization for Tiny Objects in
Multi-megapixel Images [5.09193568605539]
大規模マルチメガピクセルの高域画像における微小物体の識別・検査・編集を行う対話型画像分割・可視化フレームワークを提案する。
我々は、推論モデル、HDR画像可視化、セグメンテーションマスク検査、編集を単一のグラフィカルユーザインタフェースに統合するインタラクティブツールキットを開発した。
我々のインターフェースは、マウス制御、同期、デュアルウィンドウによる画像の可視化とセグメンテーションマスクを備えており、マルチメガピクセル画像中の小さな物体を探索するための重要な特徴である。
論文 参考訳(メタデータ) (2022-04-21T18:26:48Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z) - Object Detection in the Context of Mobile Augmented Reality [16.49070406578342]
本稿では,VIOから得られる幾何学的情報とオブジェクト検出器からの意味情報を組み合わせて,モバイルデバイス上での物体検出性能を向上させる手法を提案する。
提案手法は,(1)画像配向補正法,(2)スケールベースフィルタリング法,(3)オンライン意味地図の3つの構成要素を含む。
その結果,汎用物体検出器の精度をデータセット上で12%向上できることがわかった。
論文 参考訳(メタデータ) (2020-08-15T05:15:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。