論文の概要: InCrowd-VI: A Realistic Visual-Inertial Dataset for Evaluating SLAM in Indoor Pedestrian-Rich Spaces for Human Navigation
- arxiv url: http://arxiv.org/abs/2411.14358v2
- Date: Tue, 17 Dec 2024 06:40:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:54:34.770425
- Title: InCrowd-VI: A Realistic Visual-Inertial Dataset for Evaluating SLAM in Indoor Pedestrian-Rich Spaces for Human Navigation
- Title(参考訳): InCrowd-VI:人間ナビゲーションのための屋内歩行者・リッチ空間におけるSLAM評価のための現実的なビジュアル慣性データセット
- Authors: Marziyeh Bamdad, Hans-Peter Hutter, Alireza Darvishy,
- Abstract要約: InCrowd-VIは、屋内の歩行者の多い環境での人間のナビゲーションに特化したビジュアル慣性データセットである。
RGB、ステレオ画像、IMU測定など、合計5kmの軌道長と1.5時間の記録時間を含む58のシーケンスが特徴である。
このデータセットはMeta Ariaプロジェクトマシン認識SLAMサービスに由来する。
- 参考スコア(独自算出の注目度): 2.184775414778289
- License:
- Abstract: Simultaneous localization and mapping (SLAM) techniques can be used to navigate the visually impaired, but the development of robust SLAM solutions for crowded spaces is limited by the lack of realistic datasets. To address this, we introduce InCrowd-VI, a novel visual-inertial dataset specifically designed for human navigation in indoor pedestrian-rich environments. Recorded using Meta Aria Project glasses, it captures realistic scenarios without environmental control. InCrowd-VI features 58 sequences totaling a 5 km trajectory length and 1.5 hours of recording time, including RGB, stereo images, and IMU measurements. The dataset captures important challenges such as pedestrian occlusions, varying crowd densities, complex layouts, and lighting changes. Ground-truth trajectories, accurate to approximately 2 cm, are provided in the dataset, originating from the Meta Aria project machine perception SLAM service. In addition, a semi-dense 3D point cloud of scenes is provided for each sequence. The evaluation of state-of-the-art visual odometry (VO) and SLAM algorithms on InCrowd-VI revealed severe performance limitations in these realistic scenarios. Under challenging conditions, systems exceeded the required localization accuracy of 0.5 meters and the 1\% drift threshold, with classical methods showing drift up to 5-10\%. While deep learning-based approaches maintained high pose estimation coverage (>90\%), they failed to achieve real-time processing speeds necessary for walking pace navigation. These results demonstrate the need and value of a new dataset to advance SLAM research for visually impaired navigation in complex indoor environments. The dataset and associated tools are publicly available at https://incrowd-vi.cloudlab.zhaw.ch/.
- Abstract(参考訳): 同時局所化とマッピング(SLAM)技術は視覚障害をナビゲートするために利用できるが、密集空間に対する堅牢なSLAMソリューションの開発は、現実的なデータセットの欠如によって制限される。
InCrowd-VIは、屋内の歩行者に富む環境において、人間のナビゲーション用に特別に設計された新しいビジュアル・慣性データセットである。
Meta Aria Projectのメガネを使って記録され、環境管理なしで現実的なシナリオを捉えている。
InCrowd-VIは、RGB、ステレオ画像、IMU測定を含む5kmの軌道長と1.5時間の録音時間を含む58のシーケンスを特徴としている。
データセットは、歩行者の閉塞、さまざまな群衆密度、複雑なレイアウト、照明変更などの重要な課題をキャプチャする。
このデータセットはMeta Ariaプロジェクトマシン認識SLAMサービスに由来する。
また、シーン毎に半密度の3Dポイント雲を設ける。
InCrowd-VIにおける最先端のビジュアル・オドメトリー(VO)とSLAMアルゴリズムの評価により,これらの現実的なシナリオにおける厳しい性能制限が明らかになった。
挑戦的な条件下では、システムは0.5mの所要の局所化精度と1\%のドリフトしきい値を超え、古典的な手法では最大5-10\%のドリフトを示した。
深層学習に基づくアプローチは、高いポーズ推定カバレッジ(>90\%)を維持したが、歩行ペースナビゲーションに必要なリアルタイム処理速度を達成できなかった。
これらの結果は、複雑な屋内環境における視覚障害ナビゲーションのためのSLAM研究を進めるための新しいデータセットの必要性と価値を示している。
データセットと関連するツールはhttps://incrowd-vi.cloudlab.zhaw.ch/で公開されている。
関連論文リスト
- UAVD4L: A Large-Scale Dataset for UAV 6-DoF Localization [14.87295056434887]
局所化のための大規模6-DoF UAVデータセット(UAVD4L)を提案する。
オフライン合成データ生成とオンラインビジュアルローカライゼーションからなる2段階6-DoFローカライゼーションパイプライン(UAVLoc)を開発した。
新しいデータセットの結果は,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2024-01-11T15:19:21Z) - Amirkabir campus dataset: Real-world challenges and scenarios of Visual
Inertial Odometry (VIO) for visually impaired people [3.7998592843098336]
上記の問題に対処し,ナビゲーションシステムを改善するために,Amirkabirキャンパスデータセット(AUT-VI)を導入する。
AUT-VIは17の異なる場所で126の異なる配列を持つ、新しくて超混成的なデータセットである。
進行中の開発作業のサポートとして、データキャプチャ用のAndroidアプリケーションを一般向けにリリースしました。
論文 参考訳(メタデータ) (2024-01-07T23:13:51Z) - Improving Underwater Visual Tracking With a Large Scale Dataset and
Image Enhancement [70.2429155741593]
本稿では,水中ビジュアルオブジェクト追跡(UVOT)のための新しいデータセットと汎用トラッカ拡張手法を提案する。
水中環境は、一様でない照明条件、視界の低さ、鋭さの欠如、コントラストの低さ、カモフラージュ、懸濁粒子からの反射を示す。
本研究では,追尾品質の向上に特化して設計された水中画像強調アルゴリズムを提案する。
この手法により、最先端(SOTA)ビジュアルトラッカーの最大5.0%のAUCの性能が向上した。
論文 参考訳(メタデータ) (2023-08-30T07:41:26Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Scalable Scene Flow from Point Clouds in the Real World [30.437100097997245]
オープンデータセットに基づくシーンフローの大規模ベンチマークを新たに導入します。
実際のLiDARデータの量に基づいて、これまでの作業がバウンドされているかを示す。
フルポイントクラウド上でリアルタイム推論を提供するモデルアーキテクチャFastFlow3Dを紹介します。
論文 参考訳(メタデータ) (2021-03-01T20:56:05Z) - Exploring the Impacts from Datasets to Monocular Depth Estimation (MDE)
Models with MineNavi [5.689127984415125]
ディープラーニングに基づく現在のコンピュータビジョンタスクは、モデルトレーニングやテストのためのアノテーションを備えた大量のデータを必要とする。
実際には、高密度推定タスクのための手動ラベリングは非常に困難または不可能であり、データセットのシーンは小さな範囲に制限されることが多い。
本稿では,手作業の負担を伴わない拡張可能なデータセットを得るための合成データセット生成手法を提案する。
論文 参考訳(メタデータ) (2020-08-19T14:03:17Z) - Transferable Active Grasping and Real Embodied Dataset [48.887567134129306]
ハンドマウント型RGB-Dカメラを用いて把握可能な視点を探索する方法を示す。
現実的な3段階の移動可能な能動把握パイプラインを開発し、未確認のクラッタシーンに適応する。
本研究のパイプラインでは,カテゴリ非関連行動の把握と確保において,スパース報酬問題を克服するために,新しいマスク誘導報酬を提案する。
論文 参考訳(メタデータ) (2020-04-28T08:15:35Z) - Deep Learning based Pedestrian Inertial Navigation: Methods, Dataset and
On-Device Inference [49.88536971774444]
慣性測定ユニット(IMU)は小型で安価でエネルギー効率が良く、スマートデバイスや移動ロボットに広く使われている。
正確で信頼性の高い歩行者ナビゲーションをサポートするために慣性データをエクスプロイトすることは、新しいインターネット・オブ・シングス・アプリケーションやサービスにとって重要なコンポーネントである。
我々は、深層学習に基づく慣性ナビゲーション研究のための最初の公開データセットであるOxIOD(OxIOD)を提示、リリースする。
論文 参考訳(メタデータ) (2020-01-13T04:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。