論文の概要: WinDB: HMD-free and Distortion-free Panoptic Video Fixation Learning
- arxiv url: http://arxiv.org/abs/2305.13901v1
- Date: Tue, 23 May 2023 10:25:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 17:08:23.648956
- Title: WinDB: HMD-free and Distortion-free Panoptic Video Fixation Learning
- Title(参考訳): WinDB: HMDフリーで歪みのないパノラマビデオ固定学習
- Authors: Guotao Wang, Chenglizhao Chen, Aimin Hao, Hong Qin, Deng-ping Fan
- Abstract要約: 本稿では,Windows with a Dynamic Blurring (WinDB) Fixation collection approach for panoptic videoを紹介する。
WinDBアプローチを使用して、225以上のカテゴリをカバーする300のパノプティクスクリップを含む、PanopticVideo-300データセットを新たにリリースしました。
- 参考スコア(独自算出の注目度): 68.98569533441787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To date, the widely-adopted way to perform fixation collection in panoptic
video is based on a head-mounted display (HMD), where participants' fixations
are collected while wearing an HMD to explore the given panoptic scene freely.
However, this widely-used data collection method is insufficient for training
deep models to accurately predict which regions in a given panoptic are most
important when it contains intermittent salient events. The main reason is that
there always exist "blind zooms" when using HMD to collect fixations since the
participants cannot keep spinning their heads to explore the entire panoptic
scene all the time. Consequently, the collected fixations tend to be trapped in
some local views, leaving the remaining areas to be the "blind zooms".
Therefore, fixation data collected using HMD-based methods that accumulate
local views cannot accurately represent the overall global importance of
complex panoramic scenes. This paper introduces the auxiliary Window with a
Dynamic Blurring (WinDB) fixation collection approach for panoptic video, which
doesn't need HMD and is blind-zoom-free. Thus, the collected fixations can well
reflect the regional-wise importance degree. Using our WinDB approach, we have
released a new PanopticVideo-300 dataset, containing 300 panoptic clips
covering over 225 categories. Besides, we have presented a simple baseline
design to take full advantage of PanopticVideo-300 to handle the
blind-zoom-free attribute-induced fixation shifting problem. Our WinDB
approach, PanopticVideo-300, and tailored fixation prediction model are all
publicly available at https://github.com/360submit/WinDB.
- Abstract(参考訳): これまで、パンオプティカルビデオで固定コレクションを行う方法は、hmdを装着しながら参加者の固定を収集し、与えられたパンオプティカルシーンを自由に探索するヘッドマウントディスプレイ(hmd)に基づいている。
しかし、この広範に使用されているデータ収集手法は、間欠的な有意なイベントを含む場合、与えられたパノプティクス内のどの領域が最も重要であるかを正確に予測する深層モデルの訓練には不十分である。
主な理由は、参加者が常にパン光学シーン全体を探索するために頭を回転させ続けることができないため、HMDを使用して固定を収集する際、常に「盲ズーム」が存在するからである。
その結果、収集された固定は一部のローカルビューに閉じ込められがちであり、残りの領域は「盲ズーム」である。
したがって、局所的なビューを蓄積するHMDベースの手法を用いて収集した固定データは、複雑なパノラマシーンの全体的重要性を正確に表すことはできない。
本稿では,HMDを必要とせず,失明を伴わないパンオプティカルビデオに対して,動的ブラリング(WinDB)による補助窓を提案する。
したがって、収集された固定は地域的重要性の度合いをよく反映することができる。
WinDBアプローチを使用して、225以上のカテゴリをカバーする300のパノプティクスクリップを含む、新しいPanopticVideo-300データセットをリリースしました。
さらに,我々はpanopticvideo-300をフル活用し,ブラインドブルームフリー属性による固定シフト問題に対処するためのシンプルなベースライン設計を提案した。
当社のWinDBアプローチであるPanopticVideo-300と調整済みのフィクスレーション予測モデルは、すべてhttps://github.com/360submit/WinDBで公開されています。
関連論文リスト
- Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - Panonut360: A Head and Eye Tracking Dataset for Panoramic Video [0.0]
15のパノラマ動画を50人のユーザが視聴する頭部と眼の追跡データセットを提示する。
データセットは、ビューポートの詳細を提供し、ユーザーの注意を向ける。
我々の分析では、視野に対する視線固定において、一貫した下向きのオフセットが明らかである。
論文 参考訳(メタデータ) (2024-03-26T13:54:52Z) - Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - Panoptic Video Scene Graph Generation [110.82362282102288]
パン光学シーングラフ生成(PVSG)と呼ばれる新しい問題を提案し,研究する。
PVSGは、ビデオ内のバウンディングボックスで接地された人間とオブジェクト間の時間的相互作用に焦点を当てた、既存のビデオシーングラフ生成問題に関連している。
PVSGデータセットは400本(3人称289本+111本自撮り111本)からなり、合計150Kフレームに汎視的セグメンテーションマスクと微妙な時間的シーングラフをラベル付けした。
論文 参考訳(メタデータ) (2023-11-28T18:59:57Z) - Glitch in the Matrix: A Large Scale Benchmark for Content Driven
Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。
LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。
提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文 参考訳(メタデータ) (2023-05-03T08:48:45Z) - NEWTON: Neural View-Centric Mapping for On-the-Fly Large-Scale SLAM [51.21564182169607]
Newtonは、リアルタイム観測に基づいて動的にニューラルネットワークを構築するビュー中心のマッピング手法である。
本手法は,複数のニューラルネットワークを用いてシーンを表現することで,ループクロージャとシーン境界更新を用いたカメラポーズ更新を可能にする。
実験の結果,既存の世界中心型ニューラルネットワークSLAMシステムよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-03-23T20:22:01Z) - MonoDVPS: A Self-Supervised Monocular Depth Estimation Approach to
Depth-aware Video Panoptic Segmentation [3.2489082010225494]
単眼深度推定とビデオパノプティックセグメンテーションを行うマルチタスクネットワークを用いた新しいソリューションを提案する。
トレーニング信号の劣化を回避するため,物体を移動させるための新しいパノプティカルマスキング方式と,パノプティカル誘導による奥行き損失を導入した。
論文 参考訳(メタデータ) (2022-10-14T07:00:42Z) - A Fixation-based 360{\deg} Benchmark Dataset for Salient Object
Detection [21.314578493964333]
パノラマコンテンツ中の固定予測(FP)は、仮想現実(VR)アプリケーションの普及傾向とともに広く研究されている。
静止物体検出(SOD)は、実際のシーンを表すデータセットが欠如しているため、360度画像ではめったに探索されていない。
論文 参考訳(メタデータ) (2020-01-22T11:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。