論文の概要: Multi-View Pedestrian Occupancy Prediction with a Novel Synthetic Dataset
- arxiv url: http://arxiv.org/abs/2412.13569v1
- Date: Wed, 18 Dec 2024 07:35:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:48:14.991332
- Title: Multi-View Pedestrian Occupancy Prediction with a Novel Synthetic Dataset
- Title(参考訳): 新たな合成データセットを用いた多視点歩行者占領予測
- Authors: Sithu Aung, Min-Cheol Sagong, Junghyun Cho,
- Abstract要約: 私たちはMVP-Occと呼ばれる新しい合成データセットを作成しました。
我々のデータセットは、豊かなセマンティックシーン理解ラベルを伴って、ボクセル構造を用いた歩行者の詳細な表現を提供する。
オムニオック(OmniOcc)と呼ばれる頑健なベースラインモデルを提案し,マルチビュー画像からボクセル占有状態とパノプティカルラベルの両方を予測する。
- 参考スコア(独自算出の注目度): 2.165853699132441
- License:
- Abstract: We address an advanced challenge of predicting pedestrian occupancy as an extension of multi-view pedestrian detection in urban traffic. To support this, we have created a new synthetic dataset called MVP-Occ, designed for dense pedestrian scenarios in large-scale scenes. Our dataset provides detailed representations of pedestrians using voxel structures, accompanied by rich semantic scene understanding labels, facilitating visual navigation and insights into pedestrian spatial information. Furthermore, we present a robust baseline model, termed OmniOcc, capable of predicting both the voxel occupancy state and panoptic labels for the entire scene from multi-view images. Through in-depth analysis, we identify and evaluate the key elements of our proposed model, highlighting their specific contributions and importance.
- Abstract(参考訳): 我々は,都市交通における多視点歩行者検出の拡張として,歩行者の占有率を予測するための高度な課題に対処する。
これをサポートするために、私たちはMVP-Occと呼ばれる新しい合成データセットを作成しました。
本データセットは,視覚的ナビゲーションと歩行者空間情報への洞察を促進するために,豊かなセマンティックシーン理解ラベルを伴って,ボクセル構造を用いた歩行者の詳細な表現を提供する。
さらに,マルチビュー画像からボクセル占有状態とパノプティカルラベルの両方を予測可能な,ロバストなベースラインモデルOmniOccを提案する。
詳細な分析を通じて,提案モデルの重要要素を特定し評価し,その具体的な貢献と重要性を明らかにする。
関連論文リスト
- Multiple Prior Representation Learning for Self-Supervised Monocular Depth Estimation via Hybrid Transformer [12.486504395099022]
自己教師付き単眼深度推定はラベル付きデータに頼ることなく深度情報を推定することを目的としている。
ラベル付き情報の欠如はモデルの表現に重大な課題をもたらし、シーンの複雑な詳細を正確に捉える能力を制限する。
空間的, 文脈的, 意味的次元にまたがる表現能力に, 複数の先行情報を活用する新しい自己教師付き単眼深度推定モデルを提案する。
論文 参考訳(メタデータ) (2024-06-13T08:51:57Z) - Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and
Reasoning [19.43430577960824]
本稿では,重要度をランク付けするマルチモーダル・エゴ中心のデータセットである Rank2Tell を紹介し,その重要性の理由を述べる。
クローズドでオープンな様々な視覚的質問応答を用いて、複雑な交通シナリオにおいて、データセットは様々な重要なオブジェクトの様々な意味、空間的、時間的、関係的な属性の密接なアノテーションを提供する。
論文 参考訳(メタデータ) (2023-09-12T20:51:07Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Panoptic nuScenes: A Large-Scale Benchmark for LiDAR Panoptic
Segmentation and Tracking [11.950994311766898]
一般的なnuScenesデータセットを拡張した大規模なPanoptic nuScenesベンチマークデータセットを紹介した。
パン光学追跡のための既存のメトリクスの欠点を分析し、新しいインスタンス中心のPATメトリクスを提案する。
この拡張により、動的な都市環境のシーン理解のための新しい手法の研究が加速すると考えている。
論文 参考訳(メタデータ) (2021-09-08T17:45:37Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - SkyScapes -- Fine-Grained Semantic Understanding of Aerial Scenes [11.624882816971049]
画素レベルのセマンティックラベリングのための高精度できめ細かいアノテーションを備えた航空画像データセットであるSkyScapesを紹介した。
SkyScapesは、建物、道路、植生などの大きな構造から、レーンマーキングの12(サブカテゴリ)のような細部まで、31のセマンティックカテゴリのアノテーションを提供している。
セマンティックエッジ検出を取り入れた新しいマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2020-07-12T21:44:38Z) - Graph2Kernel Grid-LSTM: A Multi-Cued Model for Pedestrian Trajectory
Prediction by Learning Adaptive Neighborhoods [10.57164270098353]
本稿では,歩行者地区がデザインに適応しうることを提案することによって,インタラクションモデリングの新しい視点を示す。
我々のモデルは、いくつかの公開テストされた監視ビデオに類似した特徴を照合する最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-07-03T19:05:48Z) - Future Urban Scenes Generation Through Vehicles Synthesis [90.1731992199415]
本研究では,都市景観の視覚的外観を予測するためのディープラーニングパイプラインを提案する。
ループには解釈可能な情報が含まれ、各アクターは独立してモデル化される。
従来のCityFlowのシーン生成手法に比べて,このアプローチが優れていることを示す。
論文 参考訳(メタデータ) (2020-07-01T08:40:16Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。