論文の概要: SANPO: A Scene Understanding, Accessibility, Navigation, Pathfinding,
Obstacle Avoidance Dataset
- arxiv url: http://arxiv.org/abs/2309.12172v1
- Date: Thu, 21 Sep 2023 15:28:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-09-22 14:38:13.899674
- Title: SANPO: A Scene Understanding, Accessibility, Navigation, Pathfinding,
Obstacle Avoidance Dataset
- Title(参考訳): sanpo: シーンの理解、アクセシビリティ、ナビゲーション、パスファインディング、障害回避データセット
- Authors: Sagar M. Waghmare, Kimberly Wilber, Dave Hawkey, Xuan Yang, Matthew
Wilson, Stephanie Debats, Cattalyya Nuengsigkapian, Astuti Sharma, Lars
Pandikow, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko
- Abstract要約: 本研究では,屋外環境における密集予測に着目した大規模自我中心のビデオデータセットであるSANPOを紹介する。
様々な屋外環境にまたがって収集されたステレオビデオセッションや、レンダリングされた合成ビデオセッションが含まれる。
私たちの知る限り、これは大規模な汎視的セグメンテーションと深度アノテーションの両方を持つ人間中心のビデオデータセットとしては初めてのものです。
- 参考スコア(独自算出の注目度): 16.4478897707989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SANPO, a large-scale egocentric video dataset focused on dense
prediction in outdoor environments. It contains stereo video sessions collected
across diverse outdoor environments, as well as rendered synthetic video
sessions. (Synthetic data was provided by Parallel Domain.) All sessions have
(dense) depth and odometry labels. All synthetic sessions and a subset of real
sessions have temporally consistent dense panoptic segmentation labels. To our
knowledge, this is the first human egocentric video dataset with both large
scale dense panoptic segmentation and depth annotations. In addition to the
dataset we also provide zero-shot baselines and SANPO benchmarks for future
research. We hope that the challenging nature of SANPO will help advance the
state-of-the-art in video segmentation, depth estimation, multi-task visual
modeling, and synthetic-to-real domain adaptation, while enabling human
navigation systems.
SANPO is available here:
https://google-research-datasets.github.io/sanpo_dataset/
- Abstract(参考訳): 我々は,屋外環境における密集した予測に焦点を当てた大規模エゴセントリックビデオデータセットであるsanpoを紹介する。
様々な屋外環境にまたがって収集されたステレオビデオセッションや、合成ビデオセッションが含まれる。
(合成データは並列ドメインによって提供された。)
すべてのセッションには深度と度数ラベルがあります。
すべての合成セッションと実際のセッションのサブセットは、時間的に一貫した汎視的セグメンテーションラベルを持つ。
私たちの知る限り、これは大規模な汎視的セグメンテーションと深度アノテーションを備えた人間中心のビデオデータセットとしては初めてのものです。
データセットに加えて、今後の研究のためにゼロショットベースラインとSANPOベンチマークも提供します。
SANPOの挑戦的な性質は、人間のナビゲーションシステムを実現しつつ、ビデオセグメンテーション、深さ推定、マルチタスク・ビジュアル・モデリング、および合成ドメイン適応の最先端化に役立てられることを期待している。
sanpoはここで入手できる。 https://google-research-datasets.github.io/sanpo_dataset/
関連論文リスト
- What Are You Doing? A Closer Look at Controllable Human Video Generation [73.89117620413724]
What Are You Doing?」は、人間の制御可能な画像とビデオの生成を評価するための新しいベンチマークである。
このビデオは、1,544本のキャプション付きビデオで構成されており、56の細かなカテゴリーで細かな収集と注釈付けがなされている。
制御可能な画像・映像生成における7つの最先端モデルの詳細な解析を行う。
論文 参考訳(メタデータ) (2025-03-06T17:59:29Z) - OmniHD-Scenes: A Next-Generation Multimodal Dataset for Autonomous Driving [6.426389871517664]
高品質なデータセットは、効率的なデータ駆動自律運転ソリューションの開発に不可欠である。
OmniHD-Scenesは大規模なマルチモーダルデータセットであり、全方位全方位高精細データを提供する。
データセットは1501のクリップで構成され、それぞれ約30秒の長さで、合計450K以上の同期フレームと585万以上の同期センサーデータポイントで構成されている。
論文 参考訳(メタデータ) (2024-12-14T08:08:40Z) - RoboSense: Large-scale Dataset and Benchmark for Egocentric Robot Perception and Navigation in Crowded and Unstructured Environments [62.5830455357187]
我々は3種類のセンサー(Camera, LiDAR, Fisheye)をベースとした自我中心型マルチセンサデータ収集プラットフォームを構築した。
大規模なマルチモーダルデータセットであるRoboSenseは、エゴセントリックなロボット知覚を促進するために構築されている。
論文 参考訳(メタデータ) (2024-08-28T03:17:40Z) - SideSeeing: A multimodal dataset and collection of tools for sidewalk assessment [0.0]
構築された環境を評価するためのツールとデータセットを提供する新しいイニシアティブであるSideSeeingを紹介する。
本稿では,胸部装着型モバイルデバイスから撮影した同期映像とセンサデータを統合する新しいデータセットを提案する。
データセットは、9つの病院の周囲12kmをカバーする3時間のコンテンツを含み、325,000のビデオフレームと対応するセンサーデータを含んでいる。
論文 参考訳(メタデータ) (2024-07-09T00:04:54Z) - Kick Back & Relax++: Scaling Beyond Ground-Truth Depth with SlowTV &
CribsTV [50.616892315086574]
本稿では,SlowTV と CribsTV の2つの新しいデータセットを提案する。
これらは、一般公開されているYouTubeビデオから収集された大規模なデータセットで、合計200万のトレーニングフレームが含まれている。
我々はこれらのデータセットを活用し、ゼロショット一般化の難しい課題に取り組む。
論文 参考訳(メタデータ) (2024-03-03T17:29:03Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - DNA-Rendering: A Diverse Neural Actor Repository for High-Fidelity
Human-centric Rendering [126.00165445599764]
ニューラルアクターレンダリングのための人間のパフォーマンスデータの大規模かつ高忠実なリポジトリであるDNAレンダリングを提案する。
我々のデータセットには、1500人以上の被験者、5000のモーションシーケンス、67.5Mのフレームのデータボリュームが含まれています。
我々は,最大解像度4096 x 3000の60個の同期カメラと15fpsの速度,ステルカメラキャリブレーションステップを含む,データをキャプチャするプロフェッショナルなマルチビューシステムを構築した。
論文 参考訳(メタデータ) (2023-07-19T17:58:03Z) - NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation [58.21817572577012]
ビデオ深度推定は時間的に一貫した深度を推定することを目的としている。
プラグ・アンド・プレイ方式で様々な単一画像モデルから推定される不整合深さを安定化するNVDS+を導入する。
このデータセットには、200万フレーム以上の14,203本のビデオが含まれている。
論文 参考訳(メタデータ) (2023-07-17T17:57:01Z) - A Threefold Review on Deep Semantic Segmentation: Efficiency-oriented,
Temporal and Depth-aware design [77.34726150561087]
我々は、自動運転車のビジョンの文脈において、Deep Semanticの最も関連性があり最近の進歩について調査を行う。
私たちの主な目的は、それぞれの視点で直面している主要な方法、利点、制限、結果、課題に関する包括的な議論を提供することです。
論文 参考訳(メタデータ) (2023-03-08T01:29:55Z) - FSVVD: A Dataset of Full Scene Volumetric Video [2.9151420469958533]
本稿では、現在最も広く使われているデータフォーマット、ポイントクラウドに焦点を当て、フルシーンのボリュームビデオデータセットを初めてリリースする。
包括的データセット記述と分析を行い、このデータセットを潜在的に活用する。
論文 参考訳(メタデータ) (2023-03-07T02:31:08Z) - Argoverse 2: Next Generation Datasets for Self-Driving Perception and
Forecasting [64.7364925689825]
Argoverse 2(AV2)は、自動運転分野の研究の知覚と予測のための3つのデータセットの集合である。
Lidarデータセットには、ラベルなしのLidar点雲とマップ整列ポーズの2万のシーケンスが含まれている。
Motion Forecastingデータセットには、各ローカルシーンにおける自動運転車と他のアクター間の興味深い、挑戦的なインタラクションのために採掘された25万のシナリオが含まれている。
論文 参考訳(メタデータ) (2023-01-02T00:36:22Z) - PanDepth: Joint Panoptic Segmentation and Depth Completion [19.642115764441016]
本稿では,RGB画像とスパース深度マップを用いたマルチタスクモデルを提案する。
本モデルでは,完全な深度マップの予測に成功し,各入力フレームに対してセマンティックセグメンテーション,インスタンスセグメンテーション,パノプティックセグメンテーションを行う。
論文 参考訳(メタデータ) (2022-12-29T05:37:38Z) - Learning Dynamic View Synthesis With Few RGBD Cameras [60.36357774688289]
本稿では,RGBDカメラを用いて動的屋内シーンのフリー視点映像を合成することを提案する。
我々は、RGBDフレームから点雲を生成し、それをニューラル機能を介して、自由視点ビデオにレンダリングする。
そこで本研究では,未完成の深度を適応的に塗布して新規なビューを描画する,シンプルなRegional Depth-Inpaintingモジュールを提案する。
論文 参考訳(メタデータ) (2022-04-22T03:17:35Z) - HSC4D: Human-centered 4D Scene Capture in Large-scale Indoor-outdoor
Space Using Wearable IMUs and LiDAR [51.9200422793806]
ボディマウントのIMUとLiDARのみを使用することで、HSC4Dは外部機器の制約なしに空間自由となり、マップ無しで事前に構築された地図を作成できる。
人間と環境の関係も研究され、対話をより現実的なものにしている。
論文 参考訳(メタデータ) (2022-03-17T10:05:55Z) - A Multi-viewpoint Outdoor Dataset for Human Action Recognition [3.522154868524807]
我々は,YouTubeと当社のドローンから収集した多視点屋外行動認識データセットを提案する。
データセットは、20の動的なヒューマンアクションクラス、2324のビデオクリップ、503086フレームで構成されている。
全体のベースライン動作認識精度は74.0%である。
論文 参考訳(メタデータ) (2021-10-07T14:50:43Z) - SeaDronesSee: A Maritime Benchmark for Detecting Humans in Open Water [13.216389226310987]
本稿では,大規模ビジュアルオブジェクト検出・追跡ベンチマーク(SeaDronesSee)を紹介する。
我々は,高度5~260mから0~90度までの様々な角度から,40万のインスタンスで54,000以上のフレームを収集,注釈した。
新たに構築したベンチマークをベースラインとして、最新のコンピュータビジョンアルゴリズムを複数評価します。
論文 参考訳(メタデータ) (2021-05-05T08:18:36Z) - NeuralFusion: Online Depth Fusion in Latent Space [77.59420353185355]
潜在特徴空間における深度マップアグリゲーションを学習する新しいオンライン深度マップ融合手法を提案する。
提案手法は,高騒音レベルを処理し,特に測光ステレオベース深度マップに共通する粗悪なアウトレージに対処できる。
論文 参考訳(メタデータ) (2020-11-30T13:50:59Z) - Learning from THEODORE: A Synthetic Omnidirectional Top-View Indoor
Dataset for Deep Transfer Learning [4.297070083645049]
TheODOREは,14種類の高解像度魚眼画像10万点を含む,新しい大規模屋内データセットである。
リビングルーム、異なる人間キャラクター、インテリアテクスチャの3D仮想環境を作成します。
我々のデータセットは、オブジェクト検出のための微調整CNNに適していることを示す。
論文 参考訳(メタデータ) (2020-11-11T11:46:33Z) - EDEN: Multimodal Synthetic Dataset of Enclosed GarDEN Scenes [21.695100437184507]
このデータセットには、100以上の園芸モデルから取得した300万以上の画像が含まれている。
各画像には、セマンティックセグメンテーション、深さ、表面正規化、固有色、光学フローなど、様々な低レベル/高レベルの視覚変調が注釈付けされている。
コンピュータビジョンにおける2つの重要な課題である, セマンティックセグメンテーションと単眼深度予測の最先端手法に関する実験結果から, 未構造化自然シーンのデータセットに対する事前学習深度ネットワークの効果が示唆された。
論文 参考訳(メタデータ) (2020-11-09T12:44:29Z) - SVIRO: Synthetic Vehicle Interior Rear Seat Occupancy Dataset and
Benchmark [11.101588888002045]
SVIROは10台の異なる車両の旅客室におけるシーンの合成データセットである。
限られたバリエーションに基づいて学習した際の一般化能力と信頼性について、機械学習に基づくアプローチを解析する。
論文 参考訳(メタデータ) (2020-01-10T14:44:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。