論文の概要: SANPO: A Scene Understanding, Accessibility and Human Navigation Dataset
- arxiv url: http://arxiv.org/abs/2309.12172v2
- Date: Fri, 20 Dec 2024 00:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:20:41.355835
- Title: SANPO: A Scene Understanding, Accessibility and Human Navigation Dataset
- Title(参考訳): SANPO: シーン理解,アクセシビリティ,人間のナビゲーションデータセット
- Authors: Sagar M. Waghmare, Kimberly Wilber, Dave Hawkey, Xuan Yang, Matthew Wilson, Stephanie Debats, Cattalyya Nuengsigkapian, Astuti Sharma, Lars Pandikow, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko,
- Abstract要約: WHOの推計では、2020年には4330万人が失明しており、この数字は2050年までに6100万人に達すると予測されている。
現代のシーン理解モデルは、ナビゲーション、障害物回避、視覚認識機能によってこれらの人々に力を与えることができる。
本研究では,屋外ナビゲーション環境における密集予測を目的とした大規模エゴセントリックビデオデータセットであるSANPOを提案する。
- 参考スコア(独自算出の注目度): 16.055419312889253
- License:
- Abstract: Vision is essential for human navigation. The World Health Organization (WHO) estimates that 43.3 million people were blind in 2020, and this number is projected to reach 61 million by 2050. Modern scene understanding models could empower these people by assisting them with navigation, obstacle avoidance and visual recognition capabilities. The research community needs high quality datasets for both training and evaluation to build these systems. While datasets for autonomous vehicles are abundant, there is a critical gap in datasets tailored for outdoor human navigation. This gap poses a major obstacle to the development of computer vision based Assistive Technologies. To overcome this obstacle, we present SANPO, a large-scale egocentric video dataset designed for dense prediction in outdoor human navigation environments. SANPO contains 701 stereo videos of 30+ seconds captured in diverse real-world outdoor environments across four geographic locations in the USA. Every frame has a high resolution depth map and 112K frames were annotated with temporally consistent dense video panoptic segmentation labels. The dataset also includes 1961 high-quality synthetic videos with pixel accurate depth and panoptic segmentation annotations to balance the noisy real world annotations with the high precision synthetic annotations. SANPO is already publicly available and is being used by mobile applications like Project Guideline to train mobile models that help low-vision users go running outdoors independently. To preserve anonymization during peer review, we will provide a link to our dataset upon acceptance. SANPO is available here: https://google-research-datasets.github.io/sanpo_dataset/
- Abstract(参考訳): 視覚は人間のナビゲーションに不可欠である。
世界保健機関(WHO)は2020年に4330万人が失明しており、この数字は2050年までに6100万人に達すると予測している。
現代のシーン理解モデルは、ナビゲーション、障害物回避、視覚認識機能によってこれらの人々に力を与えることができる。
研究コミュニティは、これらのシステムを構築するために、トレーニングと評価の両方のために高品質なデータセットを必要としています。
自動運転車用のデータセットは豊富だが、屋外の人間のナビゲーションに適したデータセットには重大なギャップがある。
このギャップはコンピュータビジョンベースのAssistive Technologiesの発展に大きな障害となる。
この障害を克服するため、屋外のナビゲーション環境において、密集した予測のために設計された大規模なエゴセントリックなビデオデータセットであるSANPOを提案する。
SANPOには701本のステレオビデオが収録されており、30秒以上は米国内の4つの地理的な場所の様々な現実世界の屋外環境で撮影されている。
各フレームは高解像度の深度マップを持ち、112Kフレームは時間的に一貫した高密度ビデオパノラマセグメンテーションラベルでアノテートされた。
このデータセットには、1961年の高品質な合成ビデオと、ピクセルの正確な深さと、ノイズの多い現実世界のアノテーションと高精度な合成アノテーションのバランスをとるために、パノプティックセグメンテーションアノテーションが含まれている。
SANPOはすでに公開されており、Project Guidelineのようなモバイルアプリケーションによって、低ビジョンユーザが独立して屋外に走るためのモバイルモデルをトレーニングするために使用されている。
ピアレビュー中の匿名性を維持するため、受理時にデータセットへのリンクを提供する。
https://google-research-datasets.github.io/sanpo_dataset/
関連論文リスト
- DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - FSVVD: A Dataset of Full Scene Volumetric Video [2.9151420469958533]
本稿では、現在最も広く使われているデータフォーマット、ポイントクラウドに焦点を当て、フルシーンのボリュームビデオデータセットを初めてリリースする。
包括的データセット記述と分析を行い、このデータセットを潜在的に活用する。
論文 参考訳(メタデータ) (2023-03-07T02:31:08Z) - PanDepth: Joint Panoptic Segmentation and Depth Completion [19.642115764441016]
本稿では,RGB画像とスパース深度マップを用いたマルチタスクモデルを提案する。
本モデルでは,完全な深度マップの予測に成功し,各入力フレームに対してセマンティックセグメンテーション,インスタンスセグメンテーション,パノプティックセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-12-29T05:37:38Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - NeuralFusion: Online Depth Fusion in Latent Space [77.59420353185355]
潜在特徴空間における深度マップアグリゲーションを学習する新しいオンライン深度マップ融合手法を提案する。
提案手法は,高騒音レベルを処理し,特に測光ステレオベース深度マップに共通する粗悪なアウトレージに対処できる。
論文 参考訳(メタデータ) (2020-11-30T13:50:59Z) - Learning from THEODORE: A Synthetic Omnidirectional Top-View Indoor
Dataset for Deep Transfer Learning [4.297070083645049]
TheODOREは,14種類の高解像度魚眼画像10万点を含む,新しい大規模屋内データセットである。
リビングルーム、異なる人間キャラクター、インテリアテクスチャの3D仮想環境を作成します。
我々のデータセットは、オブジェクト検出のための微調整CNNに適していることを示す。
論文 参考訳(メタデータ) (2020-11-11T11:46:33Z) - EDEN: Multimodal Synthetic Dataset of Enclosed GarDEN Scenes [21.695100437184507]
このデータセットには、100以上の園芸モデルから取得した300万以上の画像が含まれている。
各画像には、セマンティックセグメンテーション、深さ、表面正規化、固有色、光学フローなど、様々な低レベル/高レベルの視覚変調が注釈付けされている。
コンピュータビジョンにおける2つの重要な課題である, セマンティックセグメンテーションと単眼深度予測の最先端手法に関する実験結果から, 未構造化自然シーンのデータセットに対する事前学習深度ネットワークの効果が示唆された。
論文 参考訳(メタデータ) (2020-11-09T12:44:29Z) - SVIRO: Synthetic Vehicle Interior Rear Seat Occupancy Dataset and
Benchmark [11.101588888002045]
SVIROは10台の異なる車両の旅客室におけるシーンの合成データセットである。
限られたバリエーションに基づいて学習した際の一般化能力と信頼性について、機械学習に基づくアプローチを解析する。
論文 参考訳(メタデータ) (2020-01-10T14:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。