論文の概要: SANPO: A Scene Understanding, Accessibility and Human Navigation Dataset
- arxiv url: http://arxiv.org/abs/2309.12172v2
- Date: Fri, 20 Dec 2024 00:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:20:41.355835
- Title: SANPO: A Scene Understanding, Accessibility and Human Navigation Dataset
- Title(参考訳): SANPO: シーン理解,アクセシビリティ,人間のナビゲーションデータセット
- Authors: Sagar M. Waghmare, Kimberly Wilber, Dave Hawkey, Xuan Yang, Matthew Wilson, Stephanie Debats, Cattalyya Nuengsigkapian, Astuti Sharma, Lars Pandikow, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko,
- Abstract要約: WHOの推計では、2020年には4330万人が失明しており、この数字は2050年までに6100万人に達すると予測されている。
現代のシーン理解モデルは、ナビゲーション、障害物回避、視覚認識機能によってこれらの人々に力を与えることができる。
本研究では,屋外ナビゲーション環境における密集予測を目的とした大規模エゴセントリックビデオデータセットであるSANPOを提案する。
- 参考スコア(独自算出の注目度): 16.055419312889253
- License:
- Abstract: Vision is essential for human navigation. The World Health Organization (WHO) estimates that 43.3 million people were blind in 2020, and this number is projected to reach 61 million by 2050. Modern scene understanding models could empower these people by assisting them with navigation, obstacle avoidance and visual recognition capabilities. The research community needs high quality datasets for both training and evaluation to build these systems. While datasets for autonomous vehicles are abundant, there is a critical gap in datasets tailored for outdoor human navigation. This gap poses a major obstacle to the development of computer vision based Assistive Technologies. To overcome this obstacle, we present SANPO, a large-scale egocentric video dataset designed for dense prediction in outdoor human navigation environments. SANPO contains 701 stereo videos of 30+ seconds captured in diverse real-world outdoor environments across four geographic locations in the USA. Every frame has a high resolution depth map and 112K frames were annotated with temporally consistent dense video panoptic segmentation labels. The dataset also includes 1961 high-quality synthetic videos with pixel accurate depth and panoptic segmentation annotations to balance the noisy real world annotations with the high precision synthetic annotations. SANPO is already publicly available and is being used by mobile applications like Project Guideline to train mobile models that help low-vision users go running outdoors independently. To preserve anonymization during peer review, we will provide a link to our dataset upon acceptance. SANPO is available here: https://google-research-datasets.github.io/sanpo_dataset/
- Abstract(参考訳): 視覚は人間のナビゲーションに不可欠である。
世界保健機関(WHO)は2020年に4330万人が失明しており、この数字は2050年までに6100万人に達すると予測している。
現代のシーン理解モデルは、ナビゲーション、障害物回避、視覚認識機能によってこれらの人々に力を与えることができる。
研究コミュニティは、これらのシステムを構築するために、トレーニングと評価の両方のために高品質なデータセットを必要としています。
自動運転車用のデータセットは豊富だが、屋外の人間のナビゲーションに適したデータセットには重大なギャップがある。
このギャップはコンピュータビジョンベースのAssistive Technologiesの発展に大きな障害となる。
この障害を克服するため、屋外のナビゲーション環境において、密集した予測のために設計された大規模なエゴセントリックなビデオデータセットであるSANPOを提案する。
SANPOには701本のステレオビデオが収録されており、30秒以上は米国内の4つの地理的な場所の様々な現実世界の屋外環境で撮影されている。
各フレームは高解像度の深度マップを持ち、112Kフレームは時間的に一貫した高密度ビデオパノラマセグメンテーションラベルでアノテートされた。
このデータセットには、1961年の高品質な合成ビデオと、ピクセルの正確な深さと、ノイズの多い現実世界のアノテーションと高精度な合成アノテーションのバランスをとるために、パノプティックセグメンテーションアノテーションが含まれている。
SANPOはすでに公開されており、Project Guidelineのようなモバイルアプリケーションによって、低ビジョンユーザが独立して屋外に走るためのモバイルモデルをトレーニングするために使用されている。
ピアレビュー中の匿名性を維持するため、受理時にデータセットへのリンクを提供する。
https://google-research-datasets.github.io/sanpo_dataset/
関連論文リスト
- OmniHD-Scenes: A Next-Generation Multimodal Dataset for Autonomous Driving [6.426389871517664]
高品質なデータセットは、効率的なデータ駆動自律運転ソリューションの開発に不可欠である。
OmniHD-Scenesは大規模なマルチモーダルデータセットであり、全方位全方位高精細データを提供する。
データセットは1501のクリップで構成され、それぞれ約30秒の長さで、合計450K以上の同期フレームと585万以上の同期センサーデータポイントで構成されている。
論文 参考訳(メタデータ) (2024-12-14T08:08:40Z) - RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。
大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文 参考訳(メタデータ) (2024-08-28T03:17:40Z) - SideSeeing: A multimodal dataset and collection of tools for sidewalk assessment [0.0]
構築された環境を評価するためのツールとデータセットを提供する新しいイニシアティブであるSideSeeingを紹介する。
本稿では,胸部装着型モバイルデバイスから撮影した同期映像とセンサデータを統合する新しいデータセットを提案する。
データセットは、9つの病院の周囲12kmをカバーする3時間のコンテンツを含み、325,000のビデオフレームと対応するセンサーデータを含んでいる。
論文 参考訳(メタデータ) (2024-07-09T00:04:54Z) - Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV &
CribsTV [50.616892315086574]
本稿では,SlowTV と CribsTV の2つの新しいデータセットを提案する。
これらは、一般公開されているYouTubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームが含まれている。
我々はこれらのデータセットを活用し、ゼロショット一般化の難しい課題に取り組む。
論文 参考訳(メタデータ) (2024-03-03T17:29:03Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - CIRCLE: Capture In Rich Contextual Environments [69.97976304918149]
そこで我々は,アクターが仮想世界において知覚し,操作する新たな動き獲得システムを提案する。
9つのシーンにわたる5人の被験者から10時間のフルボディ到達動作を含むデータセットであるCIRCLEを提示する。
このデータセットを用いて、シーン情報に基づいて人間の動きを生成するモデルを訓練する。
論文 参考訳(メタデータ) (2023-03-31T09:18:12Z) - Argoverse 2: Next Generation Datasets for Self-Driving Perception and
Forecasting [64.7364925689825]
Argoverse 2(AV2)は、自動運転分野の研究の知覚と予測のための3つのデータセットの集合である。
Lidarデータセットには、ラベルなしのLidar点雲とマップ整列ポーズの2万のシーケンスが含まれている。
Motion Forecastingデータセットには、各ローカルシーンにおける自動運転車と他のアクター間の興味深い、挑戦的なインタラクションのために採掘された25万のシナリオが含まれている。
論文 参考訳(メタデータ) (2023-01-02T00:36:22Z) - HSC4D: Human-centered 4D Scene Capture in Large-scale Indoor-outdoor
Space Using Wearable IMUs and LiDAR [51.9200422793806]
ボディマウントのIMUとLiDARのみを使用することで、HSC4Dは外部機器の制約なしに空間自由となり、マップ無しで事前に構築された地図を作成できる。
人間と環境の関係も研究され、対話をより現実的なものにしている。
論文 参考訳(メタデータ) (2022-03-17T10:05:55Z) - A Multi-viewpoint Outdoor Dataset for Human Action Recognition [3.522154868524807]
我々は,YouTubeと当社のドローンから収集した多視点屋外行動認識データセットを提案する。
データセットは、20の動的なヒューマンアクションクラス、2324のビデオクリップ、503086フレームで構成されている。
全体のベースライン動作認識精度は74.0%である。
論文 参考訳(メタデータ) (2021-10-07T14:50:43Z) - SeaDronesSee: A Maritime Benchmark for Detecting Humans in Open Water [13.216389226310987]
本稿では,大規模ビジュアルオブジェクト検出・追跡ベンチマーク(SeaDronesSee)を紹介する。
我々は,高度5~260mから0~90度までの様々な角度から,40万のインスタンスで54,000以上のフレームを収集,注釈した。
新たに構築したベンチマークをベースラインとして、最新のコンピュータビジョンアルゴリズムを複数評価します。
論文 参考訳(メタデータ) (2021-05-05T08:18:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。