論文の概要: SHD360: A Benchmark Dataset for Salient Human Detection in 360{\deg}
Videos
- arxiv url: http://arxiv.org/abs/2105.11578v1
- Date: Mon, 24 May 2021 23:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-26 14:12:22.074248
- Title: SHD360: A Benchmark Dataset for Salient Human Detection in 360{\deg}
Videos
- Title(参考訳): shd360:360{\deg}ビデオにおける人間検出のためのベンチマークデータセット
- Authors: Yi Zhang, Lu Zhang, Jing Zhang, Kang Wang, Wassim Hamidouche, Olivier
Deforges
- Abstract要約: 実写シーンを収集する360度ビデオSHDデータセットSHD360を提案する。
SHD360には16,238の有能な人間の実例があり、手動で注釈付けされたピクセル単位の地上真実がある。
提案したデータセットとベンチマークは,360度パノラマデータに向けた人間中心の研究の出発点となる可能性がある。
- 参考スコア(独自算出の注目度): 26.263614207849276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient human detection (SHD) in dynamic 360{\deg} immersive videos is of
great importance for various applications such as robotics, inter-human and
human-object interaction in augmented reality. However, 360{\deg} video SHD has
been seldom discussed in the computer vision community due to a lack of
datasets with large-scale omnidirectional videos and rich annotations. To this
end, we propose SHD360, the first 360{\deg} video SHD dataset collecting
various real-life daily scenes, providing six-level hierarchical annotations
for 6,268 key frames uniformly sampled from 37,403 omnidirectional video frames
at 4K resolution. Specifically, each collected key frame is labeled with a
super-class, a sub-class, associated attributes (e.g., geometrical distortion),
bounding boxes and per-pixel object-/instance-level masks. As a result, our
SHD360 contains totally 16,238 salient human instances with manually annotated
pixel-wise ground truth. Since so far there is no method proposed for 360{\deg}
SHD, we systematically benchmark 11 representative state-of-the-art salient
object detection (SOD) approaches on our SHD360, and explore key issues derived
from extensive experimenting results. We hope our proposed dataset and
benchmark could serve as a good starting point for advancing human-centric
researches towards 360{\deg} panoramic data. Our dataset and benchmark will be
publicly available at https://github.com/PanoAsh/SHD360.
- Abstract(参考訳): dynamic 360{\deg} 没入型ビデオにおけるsalient human detection (shd)は、拡張現実におけるロボット工学、人間間および対象間のインタラクションなど、さまざまな応用において非常に重要である。
しかし、360{\deg}のビデオSHDは、大規模な全方位ビデオとリッチアノテーションを備えたデータセットが不足しているため、コンピュータビジョンコミュニティではほとんど議論されていない。
そこで本研究では,3,403個の全方位ビデオフレームから4K解像度で一様にサンプリングされた6,268個のキーフレームに対して,6レベルの階層的アノテーションを提供する。
具体的には、収集された各キーフレームにはスーパークラス、サブクラス、関連する属性(例えば幾何学的歪み)、バウンディングボックス、ピクセル単位のオブジェクト/インスタンス単位のマスクがラベル付けされる。
その結果、私たちのSHD360には16,238の正解な人間の実例が含まれています。
360{\deg} shdの手法は今のところ提案されていないので,sod(state-of-the-art salient object detection)アプローチをscd360に体系的にベンチマークし,広範な実験結果から得られた問題点を考察した。
提案するデータセットとベンチマークが、360{\deg}パノラマデータに向けて人間中心の研究を進めるための出発点となることを願っています。
私たちのデータセットとベンチマークはhttps://github.com/PanoAsh/SHD360で公開されます。
関連論文リスト
- MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views [90.26609689682876]
MVSplat360は多様な現実世界シーンの360degノベルビュー合成(NVS)のためのフィードフォワードアプローチであり、スパース観測のみを用いて紹介する。
この設定は、入力ビュー間の重複が最小限であり、提供された視覚情報が不十分であるために本質的に不適切である。
私たちのモデルは、エンドツーエンドのトレーニングが可能で、5つのスパースなインプットビューで任意のビューのレンダリングをサポートしています。
論文 参考訳(メタデータ) (2024-11-07T17:59:31Z) - Any360D: Towards 360 Depth Anything with Unlabeled 360 Data and Möbius Spatial Augmentation [19.202253857381688]
我々は、Any360Dと呼ばれる360度深度基礎モデルを学ぶための半教師付き学習フレームワークを提案する。
SSLの傘の下で、Any360Dはまず、メートル法深度監視を通じてDAMを微調整することで教師モデルを学ぶ。
大規模な実験では、Any360DはDAMと多くの先行データ固有モデルより優れており、360度基礎モデルとして印象的なゼロショット能力を示している。
論文 参考訳(メタデータ) (2024-06-19T09:19:06Z) - NeO 360: Neural Fields for Sparse View Synthesis of Outdoor Scenes [59.15910989235392]
屋外シーンのスパースビュー合成のためのNeO 360, Neural Fieldを紹介する。
NeO 360は、単一のまたは少数のRGB画像から360degのシーンを再構成する一般化可能な方法である。
我々の表現は、Voxel-basedとBird's-eye-view (BEV)の両方の表現の長所を組み合わせたものである。
論文 参考訳(メタデータ) (2023-08-24T17:59:50Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - 360VOT: A New Benchmark Dataset for Omnidirectional Visual Object
Tracking [10.87309734945868]
360deg画像は、安定かつ長期のシーン知覚にとって重要な全方位視野を提供することができる。
本稿では,視覚的物体追跡のための360度デグ画像について検討し,歪みによる新たな課題について考察する。
今後の研究を促進するため,新しい大規模全方位追跡ベンチマークである360VOTを提案する。
論文 参考訳(メタデータ) (2023-07-27T05:32:01Z) - RenderMe-360: A Large Digital Asset Library and Benchmarks Towards
High-fidelity Head Avatars [157.82758221794452]
RenderMe-360は、頭部アバター研究の進歩を促進するための総合的な4次元人間の頭部データセットである。
そこには大量のデータ資産があり、合計で243万あまりのヘッドフレームと、500の異なるアイデンティティから8万件のビデオシーケンスがある。
データセットに基づいて、頭部アバター研究のための総合的なベンチマークを構築し、5つの主要なタスクで16の最先端の手法を実行した。
論文 参考訳(メタデータ) (2023-05-22T17:54:01Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - ATSal: An Attention Based Architecture for Saliency Prediction in 360
Videos [5.831115928056554]
本稿では,360度ビデオの注目度に基づく新しいサリエンシモデルであるATSalを提案する。
提案したアプローチを,Salient360!とVR-EyeTrackingという2つのデータセット上で,最先端のSaliencyモデルと比較する。
80以上のODVビデオ(75K以上のフレーム)の実験結果から,提案手法は既存の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2020-11-20T19:19:48Z) - A Fixation-based 360{\deg} Benchmark Dataset for Salient Object
Detection [21.314578493964333]
パノラマコンテンツ中の固定予測(FP)は、仮想現実(VR)アプリケーションの普及傾向とともに広く研究されている。
静止物体検出(SOD)は、実際のシーンを表すデータセットが欠如しているため、360度画像ではめったに探索されていない。
論文 参考訳(メタデータ) (2020-01-22T11:16:39Z) - Visual Question Answering on 360{\deg} Images [96.00046925811515]
VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。
最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
論文 参考訳(メタデータ) (2020-01-10T08:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。