論文の概要: Fast Motion Understanding with Spatiotemporal Neural Networks and
Dynamic Vision Sensors
- arxiv url: http://arxiv.org/abs/2011.09427v1
- Date: Wed, 18 Nov 2020 17:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 03:55:37.607280
- Title: Fast Motion Understanding with Spatiotemporal Neural Networks and
Dynamic Vision Sensors
- Title(参考訳): 時空間ニューラルネットワークと動的視覚センサを用いた高速動作理解
- Authors: Anthony Bisulco, Fernando Cladera Ojeda, Volkan Isler, Daniel D. Lee
- Abstract要約: 本稿では,高速な動きを推論するための動的視覚センサ(DVS)システムを提案する。
ロボットが15m/s以上の速度で接近する小さな物体に反応するケースを考察する。
我々は,23.4m/sで24.73degの誤差を$theta$,18.4mmの平均離散半径予測誤差,衝突予測誤差に対する25.03%の中央値で移動した玩具ダートについて,本システムの結果を強調した。
- 参考スコア(独自算出の注目度): 99.94079901071163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a Dynamic Vision Sensor (DVS) based system for reasoning
about high speed motion. As a representative scenario, we consider the case of
a robot at rest reacting to a small, fast approaching object at speeds higher
than 15m/s. Since conventional image sensors at typical frame rates observe
such an object for only a few frames, estimating the underlying motion presents
a considerable challenge for standard computer vision systems and algorithms.
In this paper we present a method motivated by how animals such as insects
solve this problem with their relatively simple vision systems.
Our solution takes the event stream from a DVS and first encodes the temporal
events with a set of causal exponential filters across multiple time scales. We
couple these filters with a Convolutional Neural Network (CNN) to efficiently
extract relevant spatiotemporal features. The combined network learns to output
both the expected time to collision of the object, as well as the predicted
collision point on a discretized polar grid. These critical estimates are
computed with minimal delay by the network in order to react appropriately to
the incoming object. We highlight the results of our system to a toy dart
moving at 23.4m/s with a 24.73{\deg} error in ${\theta}$, 18.4mm average
discretized radius prediction error, and 25.03% median time to collision
prediction error.
- Abstract(参考訳): 本稿では,高速な動きを推論するための動的視覚センサ(DVS)システムを提案する。
代表的なシナリオとして,休息中のロボットが15m/s以上の速さで接近する物体に反応するケースを考察する。
一般的なフレームレートのイメージセンサは、そのような物体を数フレームしか観測しないため、基礎となる動きの推定は、標準的なコンピュータビジョンシステムやアルゴリズムにとって大きな課題となる。
本稿では,昆虫などの動物が比較的単純な視覚システムでこの問題を解決する方法を提案する。
我々のソリューションは、DVSからイベントストリームを取得し、まず複数の時間スケールにわたる因果指数フィルタで時間イベントを符号化する。
これらのフィルタを畳み込みニューラルネットワーク(cnn)と組み合わせることで,時空間的特徴を効率的に抽出する。
複合ネットワークは、予測された物体の衝突時間と予測された衝突点の両方を離散極線上に出力することを学習する。
これらの臨界推定は、入ってくるオブジェクトに適切に反応するために、ネットワークによって最小限の遅延で計算される。
我々は,24.73{\deg} 誤差を${\theta}$,18.4mmの平均離散半径予測誤差,衝突予測誤差に対する25.03%の中央値で23.4m/sで動くおもちゃのダートに対して,我々のシステムの結果を強調した。
関連論文リスト
- EV-Catcher: High-Speed Object Catching Using Low-latency Event-based
Neural Networks [107.62975594230687]
イベントカメラが優れており、高速移動物体の衝突位置を正確に推定するアプリケーションを実証する。
イベントデータを低レイテンシでエンコードするために,Binary Event History Image(BEHI)と呼ばれる軽量なイベント表現を導入する。
計算制約のある組込みプラットフォーム上でも最大13m/sの速さで, 異なる場所をターゲットとした球のキャッチにおいて, 81%の成功率を達成することができることを示す。
論文 参考訳(メタデータ) (2023-04-14T15:23:28Z) - Rethinking Voxelization and Classification for 3D Object Detection [68.8204255655161]
LiDARポイントクラウドからの3Dオブジェクト検出の主な課題は、ネットワークの信頼性に影響を与えることなく、リアルタイムのパフォーマンスを実現することである。
本稿では,高速な動的ボキセラライザを実装することにより,ネットワークの推論速度と精度を同時に向上するソリューションを提案する。
さらに,予測対象を分類し,偽検出対象をフィルタリングする軽量検出サブヘッドモデルを提案する。
論文 参考訳(メタデータ) (2023-01-10T16:22:04Z) - DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera
Based Activity Recognition [2.705905918316948]
ドローン搭載カメラを用いた人間行動認識(HAR)は近年,コンピュータビジョン研究コミュニティから大きな関心を集めている。
本研究では, 疎サンプリングされたビデオフレームをグローバルに重み付けした時間的注意力を得るために, 新たにSparse Weighted Temporal Attention (SWTA) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-12-07T00:33:40Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - Real-time Object Detection for Streaming Perception [84.2559631820007]
ストリーミング知覚は,ビデオオンライン知覚の1つの指標として,レイテンシと精度を共同評価するために提案される。
ストリーミング知覚のためのシンプルで効果的なフレームワークを構築します。
提案手法はArgoverse-HDデータセット上での競合性能を実現し,強力なベースラインに比べてAPを4.9%向上させる。
論文 参考訳(メタデータ) (2022-03-23T11:33:27Z) - VideoPose: Estimating 6D object pose from videos [14.210010379733017]
我々は、畳み込みニューラルネットワークを用いて、ビデオから直接オブジェクトのポーズを推定する、単純だが効果的なアルゴリズムを導入する。
提案するネットワークは、トレーニング済みの2Dオブジェクト検出器を入力として、リカレントニューラルネットワークを介して視覚的特徴を集約し、各フレームで予測を行う。
YCB-Videoデータセットの実験的評価から,本手法は最先端のアルゴリズムと同等であることがわかった。
論文 参考訳(メタデータ) (2021-11-20T20:57:45Z) - Object Tracking by Detection with Visual and Motion Cues [1.7818230914983044]
自動運転車は、カメラ画像中の物体を検出し、追跡する必要がある。
本稿では,カルマンフィルタを用いた定速度運動モデルに基づく簡易オンライン追跡アルゴリズムを提案する。
課題のあるBDD100データセットに対するアプローチを評価します。
論文 参考訳(メタデータ) (2021-01-19T10:29:16Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z) - Event-based Robotic Grasping Detection with Neuromorphic Vision Sensor
and Event-Stream Dataset [8.030163836902299]
ニューロモルフィック・ビジョンは、小さくて若い研究コミュニティである。従来のフレームベースのコンピュータビジョンと比較すると、ニューロモルフィック・ビジョンは小さくて若い研究コミュニティである。
91個のオブジェクトからなるイベントストリームデータセットという,ロボットによる把握データセットを構築した。
リードが高周波でブリンクするため、Event-Streamデータセットは1kHzの高周波でアノテートされる。
我々は、角度学習問題を回帰ではなく分類として考慮した、検出を把握するためのディープニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2020-04-28T16:55:19Z) - A Time-Delay Feedback Neural Network for Discriminating Small,
Fast-Moving Targets in Complex Dynamic Environments [8.645725394832969]
複雑な視覚環境の中で小さな移動物体を識別することは、自律型マイクロロボットにとって重要な課題である。
フィードバック接続を備えたSTMDベースのニューラルネットワーク(Feedback STMD)を提案する。
論文 参考訳(メタデータ) (2019-12-29T03:10:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。