論文の概要: Motor Focus: Fast Ego-Motion Prediction for Assistive Visual Navigation
- arxiv url: http://arxiv.org/abs/2404.17031v2
- Date: Sat, 12 Oct 2024 21:08:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:02:26.871267
- Title: Motor Focus: Fast Ego-Motion Prediction for Assistive Visual Navigation
- Title(参考訳): モーターフォーカス:補助視覚ナビゲーションのための高速エゴ運動予測
- Authors: Hao Wang, Jiayou Qin, Xiwen Chen, Ashish Bastola, John Suchanek, Zihao Gong, Abolfazl Razi,
- Abstract要約: Motor Focusは、視覚的なフィードに基づいて観察者の動き方向を予測する画像ベースのフレームワークである。
我々のフレームワークは、速度(>40FPS)、精度(MAE = 60ピクセル)、堅牢性(SNR = 23dB)においてその優位性を示す。
- 参考スコア(独自算出の注目度): 3.837186701755568
- License:
- Abstract: Assistive visual navigation systems for visually impaired individuals have become increasingly popular thanks to the rise of mobile computing. Most of these devices work by translating visual information into voice commands. In complex scenarios where multiple objects are present, it is imperative to prioritize object detection and provide immediate notifications for key entities in specific directions. This brings the need for identifying the observer's motion direction (ego-motion) by merely processing visual information, which is the key contribution of this paper. Specifically, we introduce Motor Focus, a lightweight image-based framework that predicts the ego-motion - the humans (and humanoid machines) movement intentions based on their visual feeds, while filtering out camera motion without any camera calibration. To this end, we implement an optical flow-based pixel-wise temporal analysis method to compensate for the camera motion with a Gaussian aggregation to smooth out the movement prediction area. Subsequently, to evaluate the performance, we collect a dataset including 50 clips of pedestrian scenes in 5 different scenarios. We tested this framework with classical feature detectors such as SIFT and ORB to show the comparison. Our framework demonstrates its superiority in speed (> 40FPS), accuracy (MAE = 60pixels), and robustness (SNR = 23dB), confirming its potential to enhance the usability of vision-based assistive navigation tools in complex environments.
- Abstract(参考訳): 視覚障害者のための補助視覚ナビゲーションシステムは、モバイルコンピューティングの台頭により、ますます人気が高まっている。
これらのデバイスのほとんどは、視覚情報を音声コマンドに翻訳する。
複数のオブジェクトが存在する複雑なシナリオでは、オブジェクト検出を優先順位付けし、特定の方向にキーエンティティに即時通知を提供することが不可欠である。
これにより、視覚情報を単に処理するだけで観察者の動き方向(自我運動)を識別する必要性が生じ、これが本論文の重要な貢献となる。
具体的には、カメラのキャリブレーションなしでカメラの動きをフィルタリングしながら、人間の(およびヒューマノイドマシン)の動きの意図を視覚的フィードに基づいて予測する軽量なイメージベースフレームワークであるMotor Focusを紹介する。
そこで我々は,ガウスアグリゲーションでカメラの動きを補正し,動き予測領域を円滑にする,光フローに基づく時間解析手法を実装した。
その結果,50の歩行者シーンを5つのシナリオにまとめたデータセットが得られた。
SIFT や ORB などの古典的特徴検出器を用いて,本フレームワークを用いて比較実験を行った。
我々のフレームワークは、その速度(>40FPS)、精度(MAE = 60ピクセル)、ロバスト性(SNR = 23dB)に優れており、複雑な環境における視覚ベースの補助ナビゲーションツールのユーザビリティを高める可能性を確証している。
関連論文リスト
- ETTrack: Enhanced Temporal Motion Predictor for Multi-Object Tracking [4.250337979548885]
時間的動き予測器であるETTrackを用いた動きに基づくMOT手法を提案する。
具体的には、動作予測器は、変換器モデルと時間畳み込みネットワーク(TCN)を統合して、短期および長期の動作パターンをキャプチャする。
本研究では,DanceTrackとSportsMOTの最先端トラッカーと比較して,ETTrackの競争性能が向上していることを示す。
論文 参考訳(メタデータ) (2024-05-24T17:51:33Z) - Motion Segmentation for Neuromorphic Aerial Surveillance [42.04157319642197]
イベントカメラは優れた時間分解能、優れたダイナミックレンジ、最小限の電力要件を提供する。
固定間隔で冗長な情報をキャプチャする従来のフレームベースのセンサーとは異なり、イベントカメラは画素レベルの明るさ変化を非同期に記録する。
本稿では,イベントデータと光フロー情報の両方に自己監督型視覚変換器を利用する動き分割手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T04:36:13Z) - Treating Motion as Option with Output Selection for Unsupervised Video
Object Segmentation [17.71871884366252]
ビデオオブジェクトセグメンテーション(VOS)は、オブジェクトに関する外部のガイダンスなしで、ビデオ内の最も健全なオブジェクトを検出することを目的としている。
近年,光学フローマップから抽出した動きキューとRGB画像から抽出した外観キューを協調的に利用する手法が提案されている。
本稿では,動作キューを任意に扱うことで,新たな動作・アズ・オプション・ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-26T09:34:13Z) - Event-Free Moving Object Segmentation from Moving Ego Vehicle [88.33470650615162]
動的シーンにおけるオブジェクトセグメンテーション(MOS)の移動は、自律運転において重要で困難だが、未調査の研究テーマである。
ほとんどのセグメンテーション法は、光学フローマップから得られるモーションキューを利用する。
我々は,光学的フローに頼らずにリッチなモーションキューを提供する,より優れた映像理解のためのイベントカメラを活用することを提案する。
論文 参考訳(メタデータ) (2023-04-28T23:43:10Z) - DORT: Modeling Dynamic Objects in Recurrent for Multi-Camera 3D Object
Detection and Tracking [67.34803048690428]
本稿では、この問題を解決するためにRecurrenT(DORT)の動的オブジェクトをモデル化することを提案する。
DORTは、重い計算負担を軽減する動き推定のために、オブジェクトワイズローカルボリュームを抽出する。
フレキシブルで実用的で、ほとんどのカメラベースの3Dオブジェクト検出器に差し込むことができる。
論文 参考訳(メタデータ) (2023-03-29T12:33:55Z) - PL-EVIO: Robust Monocular Event-based Visual Inertial Odometry with
Point and Line Features [3.6355269783970394]
イベントカメラは、フレームレートが固定された強度画像の代わりにピクセルレベルの照明変化をキャプチャするモーションアクティベートセンサーである。
本稿では,ロバストで高精度でリアルタイムな単眼イベントベース視覚慣性オドメトリー(VIO)法を提案する。
論文 参考訳(メタデータ) (2022-09-25T06:14:12Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - CNN-based Omnidirectional Object Detection for HermesBot Autonomous
Delivery Robot with Preliminary Frame Classification [53.56290185900837]
予備的バイナリフレーム分類を用いた物体検出のためのニューラルネットワークの最適化アルゴリズムを提案する。
周囲に6台のローリングシャッターカメラを備えた自律移動ロボットを360度視野として実験装置として使用した。
論文 参考訳(メタデータ) (2021-10-22T15:05:37Z) - Moving Object Detection for Event-based vision using Graph Spectral
Clustering [6.354824287948164]
移動物体検出は、幅広い応用のためのコンピュータビジョンにおける中心的な話題となっている。
イベントベースデータにおける移動物体検出のための教師なしグラフスペクトルクラスタリング手法を提案する。
さらに,移動物体の最適個数を自動決定する方法について述べる。
論文 参考訳(メタデータ) (2021-09-30T10:19:22Z) - Self-supervised Video Object Segmentation by Motion Grouping [79.13206959575228]
動きの手がかりを利用して物体をセグメンテーションできるコンピュータビジョンシステムを開発した。
本稿では,光フローフレームを一次オブジェクトと背景に分割するトランスフォーマーの簡単なバリエーションを紹介する。
提案したアーキテクチャを公開ベンチマーク(DAVIS2016, SegTrackv2, FBMS59)で評価する。
論文 参考訳(メタデータ) (2021-04-15T17:59:32Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。