論文の概要: MTevent: A Multi-Task Event Camera Dataset for 6D Pose Estimation and Moving Object Detection
- arxiv url: http://arxiv.org/abs/2505.11282v2
- Date: Mon, 02 Jun 2025 18:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.115433
- Title: MTevent: A Multi-Task Event Camera Dataset for 6D Pose Estimation and Moving Object Detection
- Title(参考訳): MTevent:6次元位置推定と移動物体検出のためのマルチタスクイベントカメラデータセット
- Authors: Shrutarv Awasthi, Anas Gouda, Sven Franke, Jérôme Rutinowski, Frank Hoffmann, Moritz Roidl,
- Abstract要約: MTeventは、非常にダイナミックな環境での6次元ポーズ推定と移動物体検出のために設計されたデータセットである。
セットアップはステレオカメラとRGBカメラで、それぞれ平均16秒で75のシーンを撮影しています。
RGB画像上でNVIDIAのFoundationPoseを用いて6次元ポーズ推定を行い,0.22の平均リコールを実現した。
- 参考スコア(独自算出の注目度): 1.1083289076967895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile robots are reaching unprecedented speeds, with platforms like Unitree B2, and Fraunhofer O3dyn achieving maximum speeds between 5 and 10 m/s. However, effectively utilizing such speeds remains a challenge due to the limitations of RGB cameras, which suffer from motion blur and fail to provide real-time responsiveness. Event cameras, with their asynchronous operation, and low-latency sensing, offer a promising alternative for high-speed robotic perception. In this work, we introduce MTevent, a dataset designed for 6D pose estimation and moving object detection in highly dynamic environments with large detection distances. Our setup consists of a stereo-event camera and an RGB camera, capturing 75 scenes, each on average 16 seconds, and featuring 16 unique objects under challenging conditions such as extreme viewing angles, varying lighting, and occlusions. MTevent is the first dataset to combine high-speed motion, long-range perception, and real-world object interactions, making it a valuable resource for advancing event-based vision in robotics. To establish a baseline, we evaluate the task of 6D pose estimation using NVIDIA's FoundationPose on RGB images, achieving an Average Recall of 0.22 with ground-truth masks, highlighting the limitations of RGB-based approaches in such dynamic settings. With MTevent, we provide a novel resource to improve perception models and foster further research in high-speed robotic vision. The dataset is available for download https://huggingface.co/datasets/anas-gouda/MTevent
- Abstract(参考訳): モバイルロボットは、Unitree B2やFraunhofer O3dynなどのプラットフォームで、最高速度を5~10m/sで達成している。
しかし、RGBカメラは動きのぼやけに悩まされ、リアルタイムの応答性が得られないため、そのような速度を効果的に活用することは依然として課題である。
イベントカメラは、非同期操作と低レイテンシセンシングによって、高速なロボット知覚のための有望な代替手段を提供する。
本研究では,6次元ポーズ推定と移動物体検出のためのデータセットであるMTeventを紹介する。
セットアップはステレオエフェクトカメラとRGBカメラで、平均16秒ごとに75のシーンを撮影し、16のユニークなオブジェクトを、極端な視野角、様々な照明、オクルージョンといった困難な条件下で撮影します。
MTeventは、高速な動き、長距離知覚、現実世界の物体の相互作用を組み合わせた最初のデータセットであり、ロボット工学におけるイベントベースのビジョンを前進させるための貴重なリソースである。
ベースラインを確立するために,RGB画像上のNVIDIAのFoundationPoseを用いた6次元ポーズ推定のタスクを評価し,そのダイナミックな設定におけるRGBベースのアプローチの限界を強調し,0.22の平均リコールを実現した。
MTeventでは、知覚モデルを改善し、高速ロボットビジョンのさらなる研究を促進するための新しいリソースを提供する。
データセットはhttps://huggingface.co/datasets/anas-gouda/MTevent.comからダウンロードできる。
関連論文リスト
- FRAME: Floor-aligned Representation for Avatar Motion from Egocentric Video [52.33896173943054]
ヘッドマウントのボディフェイスステレオカメラを備えたエゴセントリックなモーションキャプチャーは、VRやARアプリケーションには不可欠だ。
既存の方法は、合成事前学習と、現実の環境で滑らかで正確な予測を生成するのに苦労している。
本稿では、デバイスポーズとカメラフィードを組み合わせて、最先端のボディポーズ予測を行う、シンプルで効果的なアーキテクチャFRAMEを提案する。
論文 参考訳(メタデータ) (2025-03-29T14:26:06Z) - EventEgo3D++: 3D Human Motion Capture from a Head-Mounted Event Camera [64.58147600753382]
EventEgo3D++は、人間の3Dモーションキャプチャーのための魚眼レンズを備えた単眼のイベントカメラである。
イベントカメラは、高時間分解能のため、高速なシナリオと様々な照明で優れる。
提案手法は,リアルタイム3次元ポーズ更新を140Hzの速度でサポートする。
論文 参考訳(メタデータ) (2025-02-11T18:57:05Z) - TUMTraf Event: Calibration and Fusion Resulting in a Dataset for
Roadside Event-Based and RGB Cameras [14.57694345706197]
インテリジェントトランスポーテーションシステム(ITS)のイベントベースカメラ
非常に高い時間分解能とダイナミックレンジを提供し、動きのぼやけをなくし、夜間の検知性能を向上させることができる。
しかし、イベントベースの画像は従来のRGBカメラの画像と比べて色やテクスチャが欠けている。
論文 参考訳(メタデータ) (2024-01-16T16:25:37Z) - EventTransAct: A video transformer-based framework for Event-camera
based action recognition [52.537021302246664]
イベントカメラは、RGBビデオの標準アクション認識と比較して、新しい機会を提供する。
本研究では,最初にイベントフレーム当たりの空間埋め込みを取得するビデオトランスフォーマーネットワーク(VTN)という,計算効率のよいモデルを用いる。
イベントデータのスパースできめ細かい性質にVTNをよりよく採用するために、イベントコントラストロス(mathcalL_EC$)とイベント固有の拡張を設計する。
論文 参考訳(メタデータ) (2023-08-25T23:51:07Z) - Event Camera-based Visual Odometry for Dynamic Motion Tracking of a
Legged Robot Using Adaptive Time Surface [5.341864681049579]
イベントカメラは高時間分解能とダイナミックレンジを提供しており、高速移動時のぼやけたRGB画像の問題を排除できる。
本稿では,従来の時間面におけるホワイトアウト問題とブラックアウト問題に対処する適応時間面(ATS)手法を提案する。
最後に,RGBとイベントベースの地図と画像の両方で3D-2Dアライメントを同時に行う非線形ポーズ最適化式を提案する。
論文 参考訳(メタデータ) (2023-05-15T19:03:45Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - ROFT: Real-Time Optical Flow-Aided 6D Object Pose and Velocity Tracking [7.617467911329272]
RGB-D画像ストリームからの6次元オブジェクトポーズと速度追跡のためのカルマンフィルタ手法であるROFTを導入する。
リアルタイム光フローを活用することで、ROFTは低フレームレートの畳み込みニューラルネットワークの遅延出力をインスタンスセグメンテーションと6Dオブジェクトのポーズ推定に同期させる。
その結果,本手法は6次元オブジェクトのポーズトラッキングと6次元オブジェクトの速度トラッキングを併用しながら,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-11-06T07:30:00Z) - TUM-VIE: The TUM Stereo Visual-Inertial Event Dataset [50.8779574716494]
イベントカメラはバイオインスパイアされた視覚センサーで、ピクセルごとの明るさの変化を測定する。
これらは、低レイテンシ、高ダイナミックレンジ、高時間分解能、低消費電力など、従来のフレームベースのカメラよりも多くの利点を提供する。
イベントカメラを用いた3次元認識・ナビゲーションアルゴリズムの開発を促進するため,TUM-VIEデータセットを提案する。
論文 参考訳(メタデータ) (2021-08-16T19:53:56Z) - Real-time RGBD-based Extended Body Pose Estimation [57.61868412206493]
3DヒトポーズのリアルタイムRGBDに基づく推定システムを提案する。
パラメトリック3次元変形可能なヒューマンメッシュモデル(SMPL-X)を表現として使用する。
身体のポーズと表情パラメータの推定子を訓練する。
論文 参考訳(メタデータ) (2021-03-05T13:37:50Z) - RGB-D-E: Event Camera Calibration for Fast 6-DOF Object Tracking [16.06615504110132]
6自由度で3次元物体追跡を高速化するために,イベントベースカメラを提案する。
このアプリケーションは、魅力的なAR体験を伝えるために、非常に高いオブジェクトスピードを扱う必要がある。
我々は,既存のRGB-Dネットワークと新しいイベントベースネットワークをカスケード方式で組み合わせたディープラーニングアプローチを開発した。
論文 参考訳(メタデータ) (2020-06-09T01:55:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。