論文の概要: InCrowd-VI: A Realistic Visual-Inertial Dataset for Evaluating SLAM in Indoor Pedestrian-Rich Spaces for Human Navigation
- arxiv url: http://arxiv.org/abs/2411.14358v2
- Date: Tue, 17 Dec 2024 06:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:54:34.770425
- Title: InCrowd-VI: A Realistic Visual-Inertial Dataset for Evaluating SLAM in Indoor Pedestrian-Rich Spaces for Human Navigation
- Title(参考訳): InCrowd-VI:人間ナビゲーションのための屋内歩行者・リッチ空間におけるSLAM評価のための現実的なビジュアル慣性データセット
- Authors: Marziyeh Bamdad, Hans-Peter Hutter, Alireza Darvishy,
- Abstract要約: InCrowd-VIは、屋内の歩行者の多い環境での人間のナビゲーションに特化したビジュアル慣性データセットである。
RGB、ステレオ画像、IMU測定など、合計5kmの軌道長と1.5時間の記録時間を含む58のシーケンスが特徴である。
このデータセットはMeta Ariaプロジェクトマシン認識SLAMサービスに由来する。
- 参考スコア(独自算出の注目度): 2.184775414778289
- License:
- Abstract: Simultaneous localization and mapping (SLAM) techniques can be used to navigate the visually impaired, but the development of robust SLAM solutions for crowded spaces is limited by the lack of realistic datasets. To address this, we introduce InCrowd-VI, a novel visual-inertial dataset specifically designed for human navigation in indoor pedestrian-rich environments. Recorded using Meta Aria Project glasses, it captures realistic scenarios without environmental control. InCrowd-VI features 58 sequences totaling a 5 km trajectory length and 1.5 hours of recording time, including RGB, stereo images, and IMU measurements. The dataset captures important challenges such as pedestrian occlusions, varying crowd densities, complex layouts, and lighting changes. Ground-truth trajectories, accurate to approximately 2 cm, are provided in the dataset, originating from the Meta Aria project machine perception SLAM service. In addition, a semi-dense 3D point cloud of scenes is provided for each sequence. The evaluation of state-of-the-art visual odometry (VO) and SLAM algorithms on InCrowd-VI revealed severe performance limitations in these realistic scenarios. Under challenging conditions, systems exceeded the required localization accuracy of 0.5 meters and the 1\% drift threshold, with classical methods showing drift up to 5-10\%. While deep learning-based approaches maintained high pose estimation coverage (>90\%), they failed to achieve real-time processing speeds necessary for walking pace navigation. These results demonstrate the need and value of a new dataset to advance SLAM research for visually impaired navigation in complex indoor environments. The dataset and associated tools are publicly available at https://incrowd-vi.cloudlab.zhaw.ch/.
- Abstract(参考訳): 同時局所化とマッピング(SLAM)技術は視覚障害をナビゲートするために利用できるが、密集空間に対する堅牢なSLAMソリューションの開発は、現実的なデータセットの欠如によって制限される。
InCrowd-VIは、屋内の歩行者に富む環境において、人間のナビゲーション用に特別に設計された新しいビジュアル・慣性データセットである。
Meta Aria Projectのメガネを使って記録され、環境管理なしで現実的なシナリオを捉えている。
InCrowd-VIは、RGB、ステレオ画像、IMU測定を含む5kmの軌道長と1.5時間の録音時間を含む58のシーケンスを特徴としている。
データセットは、歩行者の閉塞、さまざまな群衆密度、複雑なレイアウト、照明変更などの重要な課題をキャプチャする。
このデータセットはMeta Ariaプロジェクトマシン認識SLAMサービスに由来する。
また、シーン毎に半密度の3Dポイント雲を設ける。
InCrowd-VIにおける最先端のビジュアル・オドメトリー(VO)とSLAMアルゴリズムの評価により,これらの現実的なシナリオにおける厳しい性能制限が明らかになった。
挑戦的な条件下では、システムは0.5mの所要の局所化精度と1\%のドリフトしきい値を超え、古典的な手法では最大5-10\%のドリフトを示した。
深層学習に基づくアプローチは、高いポーズ推定カバレッジ(>90\%)を維持したが、歩行ペースナビゲーションに必要なリアルタイム処理速度を達成できなかった。
これらの結果は、複雑な屋内環境における視覚障害ナビゲーションのためのSLAM研究を進めるための新しいデータセットの必要性と価値を示している。
データセットと関連するツールはhttps://incrowd-vi.cloudlab.zhaw.ch/で公開されている。
関連論文リスト
- LiveHPS: LiDAR-based Scene-level Human Pose and Shape Estimation in Free
Environment [59.320414108383055]
シーンレベルの人間のポーズと形状推定のための単一LiDARに基づく新しいアプローチであるLiveHPSを提案する。
多様な人間のポーズを伴う様々なシナリオで収集される巨大な人間の動きデータセットFreeMotionを提案する。
論文 参考訳(メタデータ) (2024-02-27T03:08:44Z) - UAVD4L: A Large-Scale Dataset for UAV 6-DoF Localization [14.87295056434887]
局所化のための大規模6-DoF UAVデータセット(UAVD4L)を提案する。
オフライン合成データ生成とオンラインビジュアルローカライゼーションからなる2段階6-DoFローカライゼーションパイプライン(UAVLoc)を開発した。
新しいデータセットの結果は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-01-11T15:19:21Z) - Amirkabir campus dataset: Real-world challenges and scenarios of Visual
Inertial Odometry (VIO) for visually impaired people [3.7998592843098336]
上記の問題に対処し,ナビゲーションシステムを改善するために,Amirkabirキャンパスデータセット(AUT-VI)を導入する。
AUT-VIは17の異なる場所で126の異なる配列を持つ、新しくて超混成的なデータセットである。
進行中の開発作業のサポートとして、データキャプチャ用のAndroidアプリケーションを一般向けにリリースしました。
論文 参考訳(メタデータ) (2024-01-07T23:13:51Z) - Improving Underwater Visual Tracking With a Large Scale Dataset and
Image Enhancement [70.2429155741593]
本稿では,水中ビジュアルオブジェクト追跡(UVOT)のための新しいデータセットと汎用トラッカ拡張手法を提案する。
水中環境は、一様でない照明条件、視界の低さ、鋭さの欠如、コントラストの低さ、カモフラージュ、懸濁粒子からの反射を示す。
本研究では,追尾品質の向上に特化して設計された水中画像強調アルゴリズムを提案する。
この手法により、最先端(SOTA)ビジュアルトラッカーの最大5.0%のAUCの性能が向上した。
論文 参考訳(メタデータ) (2023-08-30T07:41:26Z) - FLSea: Underwater Visual-Inertial and Stereo-Vision Forward-Looking
Datasets [8.830479021890575]
我々は,地中海と紅海の前方視像と視界慣性画像集合を収集した。
これらのデータセットは、障害物回避、視覚計測、3Dトラッキング、3Dローカライゼーションとマッピング(SLAM)、深さ推定など、いくつかの水中アプリケーションの開発に欠かせない。
論文 参考訳(メタデータ) (2023-02-24T17:39:53Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Fog Simulation on Real LiDAR Point Clouds for 3D Object Detection in
Adverse Weather [92.84066576636914]
本研究は,霧の天候下でのLiDARによる3次元物体検出の課題に対処する。
我々は、物理的に正確な霧をクリア・ウェザー・シーンにシミュレートすることでこの問題に対処する。
Seeing Through Fogデータセットに強力な3Dオブジェクト検出ベースラインを提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2021-08-11T14:37:54Z) - A Flow Base Bi-path Network for Cross-scene Video Crowd Understanding in
Aerial View [93.23947591795897]
本稿では,これらの課題に対処し,ドローンから収集した視覚的データから参加者を自動的に理解する。
クロスシーンテストで発生する背景雑音を軽減するために, 二重ストリーム群カウントモデルを提案する。
極暗環境下での集団密度推定問題に対処するために,ゲームグランドセフトオートV(GTAV)によって生成された合成データを導入する。
論文 参考訳(メタデータ) (2020-09-29T01:48:24Z) - Exploring the Impacts from Datasets to Monocular Depth Estimation (MDE)
Models with MineNavi [5.689127984415125]
ディープラーニングに基づく現在のコンピュータビジョンタスクは、モデルトレーニングやテストのためのアノテーションを備えた大量のデータを必要とする。
実際には、高密度推定タスクのための手動ラベリングは非常に困難または不可能であり、データセットのシーンは小さな範囲に制限されることが多い。
本稿では,手作業の負担を伴わない拡張可能なデータセットを得るための合成データセット生成手法を提案する。
論文 参考訳(メタデータ) (2020-08-19T14:03:17Z) - Transferable Active Grasping and Real Embodied Dataset [48.887567134129306]
ハンドマウント型RGB-Dカメラを用いて把握可能な視点を探索する方法を示す。
現実的な3段階の移動可能な能動把握パイプラインを開発し、未確認のクラッタシーンに適応する。
本研究のパイプラインでは,カテゴリ非関連行動の把握と確保において,スパース報酬問題を克服するために,新しいマスク誘導報酬を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:15:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。