論文の概要: SANPO: A Scene Understanding, Accessibility, Navigation, Pathfinding,
Obstacle Avoidance Dataset
- arxiv url: http://arxiv.org/abs/2309.12172v1
- Date: Thu, 21 Sep 2023 15:28:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 14:38:13.899674
- Title: SANPO: A Scene Understanding, Accessibility, Navigation, Pathfinding,
Obstacle Avoidance Dataset
- Title(参考訳): sanpo: シーンの理解、アクセシビリティ、ナビゲーション、パスファインディング、障害回避データセット
- Authors: Sagar M. Waghmare, Kimberly Wilber, Dave Hawkey, Xuan Yang, Matthew
Wilson, Stephanie Debats, Cattalyya Nuengsigkapian, Astuti Sharma, Lars
Pandikow, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko
- Abstract要約: 本研究では,屋外環境における密集予測に着目した大規模自我中心のビデオデータセットであるSANPOを紹介する。
様々な屋外環境にまたがって収集されたステレオビデオセッションや、レンダリングされた合成ビデオセッションが含まれる。
私たちの知る限り、これは大規模な汎視的セグメンテーションと深度アノテーションの両方を持つ人間中心のビデオデータセットとしては初めてのものです。
- 参考スコア(独自算出の注目度): 16.4478897707989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SANPO, a large-scale egocentric video dataset focused on dense
prediction in outdoor environments. It contains stereo video sessions collected
across diverse outdoor environments, as well as rendered synthetic video
sessions. (Synthetic data was provided by Parallel Domain.) All sessions have
(dense) depth and odometry labels. All synthetic sessions and a subset of real
sessions have temporally consistent dense panoptic segmentation labels. To our
knowledge, this is the first human egocentric video dataset with both large
scale dense panoptic segmentation and depth annotations. In addition to the
dataset we also provide zero-shot baselines and SANPO benchmarks for future
research. We hope that the challenging nature of SANPO will help advance the
state-of-the-art in video segmentation, depth estimation, multi-task visual
modeling, and synthetic-to-real domain adaptation, while enabling human
navigation systems.
SANPO is available here:
https://google-research-datasets.github.io/sanpo_dataset/
- Abstract(参考訳): 我々は,屋外環境における密集した予測に焦点を当てた大規模エゴセントリックビデオデータセットであるsanpoを紹介する。
様々な屋外環境にまたがって収集されたステレオビデオセッションや、合成ビデオセッションが含まれる。
(合成データは並列ドメインによって提供された。)
すべてのセッションには深度と度数ラベルがあります。
すべての合成セッションと実際のセッションのサブセットは、時間的に一貫した汎視的セグメンテーションラベルを持つ。
私たちの知る限り、これは大規模な汎視的セグメンテーションと深度アノテーションを備えた人間中心のビデオデータセットとしては初めてのものです。
データセットに加えて、今後の研究のためにゼロショットベースラインとSANPOベンチマークも提供します。
SANPOの挑戦的な性質は、人間のナビゲーションシステムを実現しつつ、ビデオセグメンテーション、深さ推定、マルチタスク・ビジュアル・モデリング、および合成ドメイン適応の最先端化に役立てられることを期待している。
sanpoはここで入手できる。 https://google-research-datasets.github.io/sanpo_dataset/
関連論文リスト
- DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - FSVVD: A Dataset of Full Scene Volumetric Video [2.9151420469958533]
本稿では、現在最も広く使われているデータフォーマット、ポイントクラウドに焦点を当て、フルシーンのボリュームビデオデータセットを初めてリリースする。
包括的データセット記述と分析を行い、このデータセットを潜在的に活用する。
論文 参考訳(メタデータ) (2023-03-07T02:31:08Z) - PanDepth: Joint Panoptic Segmentation and Depth Completion [19.642115764441016]
本稿では,RGB画像とスパース深度マップを用いたマルチタスクモデルを提案する。
本モデルでは,完全な深度マップの予測に成功し,各入力フレームに対してセマンティックセグメンテーション,インスタンスセグメンテーション,パノプティックセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-12-29T05:37:38Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - NeuralFusion: Online Depth Fusion in Latent Space [77.59420353185355]
潜在特徴空間における深度マップアグリゲーションを学習する新しいオンライン深度マップ融合手法を提案する。
提案手法は,高騒音レベルを処理し,特に測光ステレオベース深度マップに共通する粗悪なアウトレージに対処できる。
論文 参考訳(メタデータ) (2020-11-30T13:50:59Z) - Learning from THEODORE: A Synthetic Omnidirectional Top-View Indoor
Dataset for Deep Transfer Learning [4.297070083645049]
TheODOREは,14種類の高解像度魚眼画像10万点を含む,新しい大規模屋内データセットである。
リビングルーム、異なる人間キャラクター、インテリアテクスチャの3D仮想環境を作成します。
我々のデータセットは、オブジェクト検出のための微調整CNNに適していることを示す。
論文 参考訳(メタデータ) (2020-11-11T11:46:33Z) - EDEN: Multimodal Synthetic Dataset of Enclosed GarDEN Scenes [21.695100437184507]
このデータセットには、100以上の園芸モデルから取得した300万以上の画像が含まれている。
各画像には、セマンティックセグメンテーション、深さ、表面正規化、固有色、光学フローなど、様々な低レベル/高レベルの視覚変調が注釈付けされている。
コンピュータビジョンにおける2つの重要な課題である, セマンティックセグメンテーションと単眼深度予測の最先端手法に関する実験結果から, 未構造化自然シーンのデータセットに対する事前学習深度ネットワークの効果が示唆された。
論文 参考訳(メタデータ) (2020-11-09T12:44:29Z) - SVIRO: Synthetic Vehicle Interior Rear Seat Occupancy Dataset and
Benchmark [11.101588888002045]
SVIROは10台の異なる車両の旅客室におけるシーンの合成データセットである。
限られたバリエーションに基づいて学習した際の一般化能力と信頼性について、機械学習に基づくアプローチを解析する。
論文 参考訳(メタデータ) (2020-01-10T14:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。