論文の概要: Event-based Robotic Grasping Detection with Neuromorphic Vision Sensor
and Event-Stream Dataset
- arxiv url: http://arxiv.org/abs/2004.13652v2
- Date: Fri, 1 May 2020 16:59:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 23:27:30.571095
- Title: Event-based Robotic Grasping Detection with Neuromorphic Vision Sensor
and Event-Stream Dataset
- Title(参考訳): ニューロモルフィック視覚センサとイベントストリームデータセットを用いたイベントベースロボットグラフプ検出
- Authors: Bin Li, Hu Cao, Zhongnan Qu, Yingbai Hu, Zhenke Wang, and Zichen Liang
- Abstract要約: ニューロモルフィック・ビジョンは、小さくて若い研究コミュニティである。従来のフレームベースのコンピュータビジョンと比較すると、ニューロモルフィック・ビジョンは小さくて若い研究コミュニティである。
91個のオブジェクトからなるイベントストリームデータセットという,ロボットによる把握データセットを構築した。
リードが高周波でブリンクするため、Event-Streamデータセットは1kHzの高周波でアノテートされる。
我々は、角度学習問題を回帰ではなく分類として考慮した、検出を把握するためのディープニューラルネットワークを開発した。
- 参考スコア(独自算出の注目度): 8.030163836902299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic grasping plays an important role in the field of robotics. The
current state-of-the-art robotic grasping detection systems are usually built
on the conventional vision, such as RGB-D camera. Compared to traditional
frame-based computer vision, neuromorphic vision is a small and young community
of research. Currently, there are limited event-based datasets due to the
troublesome annotation of the asynchronous event stream. Annotating large scale
vision dataset often takes lots of computation resources, especially the
troublesome data for video-level annotation. In this work, we consider the
problem of detecting robotic grasps in a moving camera view of a scene
containing objects. To obtain more agile robotic perception, a neuromorphic
vision sensor (DAVIS) attaching to the robot gripper is introduced to explore
the potential usage in grasping detection. We construct a robotic grasping
dataset named Event-Stream Dataset with 91 objects. A spatio-temporal mixed
particle filter (SMP Filter) is proposed to track the led-based grasp
rectangles which enables video-level annotation of a single grasp rectangle per
object. As leds blink at high frequency, the Event-Stream dataset is annotated
in a high frequency of 1 kHz. Based on the Event-Stream dataset, we develop a
deep neural network for grasping detection which consider the angle learning
problem as classification instead of regression. The method performs high
detection accuracy on our Event-Stream dataset with 93% precision at
object-wise level. This work provides a large-scale and well-annotated dataset,
and promotes the neuromorphic vision applications in agile robot.
- Abstract(参考訳): ロボットの把持はロボティクスの分野で重要な役割を担っている。
現在の最先端のロボット把握検出システムは、通常、RGB-Dカメラのような従来のビジョンに基づいて構築されている。
従来のフレームベースのコンピュータビジョンと比較して、ニューロモルフィックビジョンは小さく若い研究コミュニティである。
現在、非同期イベントストリームの面倒なアノテーションのため、イベントベースのデータセットは限られている。
大規模ビジョンデータセットの注釈付けには多くの計算リソース、特にビデオレベルのアノテーションの厄介なデータが必要となることが多い。
本研究では,物体を含むシーンの移動カメラビューにおけるロボット把持検出の問題点について考察する。
より機敏なロボット知覚を得るために、ロボットグリップに装着されたニューロモルフィック視覚センサ(DAVIS)を導入して、検出の潜在的な使用法を探る。
91個のオブジェクトからなるイベントストリームデータセットという,ロボットによる把持データセットを構築する。
物体毎に単一の把持矩形をビデオレベルでアノテーションできるledベースの把持矩形を追跡するために,時空間混合粒子フィルタ(smpフィルタ)を提案する。
ledが高周波で点滅すると、イベントストリームデータセットは1khzの高周波でアノテートされる。
Event-Streamデータセットに基づいて,角度学習問題を回帰ではなく分類とみなす検出を把握するためのディープニューラルネットワークを開発した。
本手法は,オブジェクトレベルで93%の精度で,イベントストリームデータセット上で高い検出精度を実現する。
この研究は、大規模でよくアノテーションされたデータセットを提供し、アジャイルロボットにおける神経形態的ビジョンアプリケーションを促進する。
関連論文リスト
- Spatio-temporal Transformers for Action Unit Classification with Event Cameras [28.98336123799572]
本稿では,RGBビデオとイベントストリームからなる時間同期型マルチモーダル顔データセットであるFACEMORPHICを提案する。
映像を手動でアノテートすることなく、時間同期が効果的なニューロモルフィック顔分析を可能にすることを示す。
論文 参考訳(メタデータ) (2024-10-29T11:23:09Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - HabitatDyn Dataset: Dynamic Object Detection to Kinematics Estimation [16.36110033895749]
本稿では,合成RGBビデオ,セマンティックラベル,深度情報,および運動情報を含むデータセットHabitatDynを提案する。
HabitatDynは移動カメラを搭載した移動ロボットの視点で作られ、6種類の移動物体をさまざまな速度で撮影する30のシーンを含んでいる。
論文 参考訳(メタデータ) (2023-04-21T09:57:35Z) - EV-Catcher: High-Speed Object Catching Using Low-latency Event-based
Neural Networks [107.62975594230687]
イベントカメラが優れており、高速移動物体の衝突位置を正確に推定するアプリケーションを実証する。
イベントデータを低レイテンシでエンコードするために,Binary Event History Image(BEHI)と呼ばれる軽量なイベント表現を導入する。
計算制約のある組込みプラットフォーム上でも最大13m/sの速さで, 異なる場所をターゲットとした球のキャッチにおいて, 81%の成功率を達成することができることを示す。
論文 参考訳(メタデータ) (2023-04-14T15:23:28Z) - Dual Memory Aggregation Network for Event-Based Object Detection with
Learnable Representation [79.02808071245634]
イベントベースのカメラはバイオインスパイアされたセンサーで、各ピクセルの明るさ変化を非同期に捉える。
イベントストリームは、正極性と負極性の両方のためにx-y-t座標の格子に分割され、3次元テンソル表現として柱の集合が生成される。
長メモリは適応型convLSTMの隠れ状態に符号化され、短メモリはイベントピラー間の空間的時間的相関を計算することによってモデル化される。
論文 参考訳(メタデータ) (2023-03-17T12:12:41Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Moving Object Detection for Event-based vision using Graph Spectral
Clustering [6.354824287948164]
移動物体検出は、幅広い応用のためのコンピュータビジョンにおける中心的な話題となっている。
イベントベースデータにおける移動物体検出のための教師なしグラフスペクトルクラスタリング手法を提案する。
さらに,移動物体の最適個数を自動決定する方法について述べる。
論文 参考訳(メタデータ) (2021-09-30T10:19:22Z) - An Analysis of Deep Object Detectors For Diver Detection [19.14344722263869]
ビデオから得られたダイバーの注釈付き画像を約105,000枚作成する。
私たちは、Mobilenetを使ったSSD、Faster R-CNN、YOLOなど、オブジェクト検出のための最先端のディープニューラルネットワークをトレーニングしています。
この結果に基づき、ロボットのリアルタイム応用にTiny-YOLOv4を推奨する。
論文 参考訳(メタデータ) (2020-11-25T01:50:32Z) - Fast Motion Understanding with Spatiotemporal Neural Networks and
Dynamic Vision Sensors [99.94079901071163]
本稿では,高速な動きを推論するための動的視覚センサ(DVS)システムを提案する。
ロボットが15m/s以上の速度で接近する小さな物体に反応するケースを考察する。
我々は,23.4m/sで24.73degの誤差を$theta$,18.4mmの平均離散半径予測誤差,衝突予測誤差に対する25.03%の中央値で移動した玩具ダートについて,本システムの結果を強調した。
論文 参考訳(メタデータ) (2020-11-18T17:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。