論文の概要: Panonut360: A Head and Eye Tracking Dataset for Panoramic Video
- arxiv url: http://arxiv.org/abs/2403.17708v1
- Date: Tue, 26 Mar 2024 13:54:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:17:51.058605
- Title: Panonut360: A Head and Eye Tracking Dataset for Panoramic Video
- Title(参考訳): Panonut360:パノラマ動画のための頭部・眼球追跡データセット
- Authors: Yutong Xu, Junhao Du, Jiahe Wang, Yuwei Ning, Sihan Zhou Yang Cao,
- Abstract要約: 15のパノラマ動画を50人のユーザが視聴する頭部と眼の追跡データセットを提示する。
データセットは、ビューポートの詳細を提供し、ユーザーの注意を向ける。
我々の分析では、視野に対する視線固定において、一貫した下向きのオフセットが明らかである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development and widespread application of VR/AR technology, maximizing the quality of immersive panoramic video services that match users' personal preferences and habits has become a long-standing challenge. Understanding the saliency region where users focus, based on data collected with HMDs, can promote multimedia encoding, transmission, and quality assessment. At the same time, large-scale datasets are essential for researchers and developers to explore short/long-term user behavior patterns and train AI models related to panoramic videos. However, existing panoramic video datasets often include low-frequency user head or eye movement data through short-term videos only, lacking sufficient data for analyzing users' Field of View (FoV) and generating video saliency regions. Driven by these practical factors, in this paper, we present a head and eye tracking dataset involving 50 users (25 males and 25 females) watching 15 panoramic videos. The dataset provides details on the viewport and gaze attention locations of users. Besides, we present some statistics samples extracted from the dataset. For example, the deviation between head and eye movements challenges the widely held assumption that gaze attention decreases from the center of the FoV following a Gaussian distribution. Our analysis reveals a consistent downward offset in gaze fixations relative to the FoV in experimental settings involving multiple users and videos. That's why we name the dataset Panonut, a saliency weighting shaped like a donut. Finally, we also provide a script that generates saliency distributions based on given head or eye coordinates and pre-generated saliency distribution map sets of each video from the collected eye tracking data. The dataset is available on website: https://dianvrlab.github.io/Panonut360/.
- Abstract(参考訳): VR/AR技術の急速な開発と普及により、ユーザーの好みや習慣に合った没入型パノラマビデオサービスの質を最大化することが長年にわたる課題となっている。
HMDで収集されたデータに基づいて、ユーザが集中する衛生領域を理解することは、マルチメディアエンコーディング、トランスミッション、品質アセスメントを促進することができる。
同時に、研究者や開発者にとって大規模なデータセットは、短期的・長期的なユーザー行動パターンを探索し、パノラマビデオに関連するAIモデルをトレーニングする上で不可欠である。
しかしながら、既存のパノラマビデオデータセットには、短期のビデオのみを通じて低周波のユーザヘッドやアイモーションのデータが含まれており、ユーザの視野(FoV)を分析したり、ビデオサリエンシ領域を生成するのに十分なデータが不足している。
本稿では,この実践的要因によって,50人のユーザ(25人の男性と25人の女性)が15のパノラマ動画を視聴する頭部・眼球追跡データセットを提示する。
データセットは、ビューポートの詳細を提供し、ユーザーの注意を向ける。
また,データセットから抽出した統計サンプルも提示する。
例えば、頭部運動と眼球運動の偏差は、ガウス分布の後、視線がFoVの中心から減少するという広く信じられている仮定に挑戦する。
分析の結果、複数のユーザーやビデオを含む実験環境では、FoVと比較して視線修正が一貫した下向きのオフセットが明らかとなった。
そこで私たちは、ドーナツの形をした塩分濃度の重み付けであるデータセットPanonutを命名しました。
また,収集した視線追跡データから,視線座標や視線座標に基づいて視線分布を生成するスクリプトや,各映像の視線分布マップを事前に生成するスクリプトも提供する。
データセットはWebサイト(https://dianvrlab.github.io/Panonut360/)で公開されている。
関連論文リスト
- CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - 360+x: A Panoptic Multi-modal Scene Understanding Dataset [13.823967656097146]
360+xは、複数の視点を複数のデータモダリティでカバーする最初のデータベースである。
私たちの知る限りでは、このデータベースは、複数の視点を複数のデータモダリティでカバーし、日々の情報が現実世界でどのようにアクセスされているかを模倣する最初のデータベースです。
論文 参考訳(メタデータ) (2024-04-01T08:34:42Z) - VEATIC: Video-based Emotion and Affect Tracking in Context Dataset [34.77364955121413]
私たちは、コンテキストデータセット(VEATIC)におけるビデオベースの感情と感情追跡という、まったく新しい大きなデータセットを導入しました。
VEATICにはハリウッド映画、ドキュメンタリー、ホームビデオの124本のビデオクリップがあり、各フレームの連続的な評価と刺激的な評価をリアルタイムで行う。
提案するコンピュータビジョンタスクでは,映像フレームのコンテキスト情報と文字情報の両方を用いて,選択した文字の影響を推測する。
論文 参考訳(メタデータ) (2023-09-13T06:31:35Z) - NPF-200: A Multi-Modal Eye Fixation Dataset and Method for
Non-Photorealistic Videos [51.409547544747284]
NPF-200は、視線を固定した純粋にフォトリアリスティックでないビデオの大規模なマルチモーダルデータセットである。
私たちは一連の分析を行い、このタスクについてより深い洞察を得ます。
NPSNetと呼ばれる広帯域周波数対応マルチモーダル非フォトリアリスティックサリエンシ検出モデルを提案する。
論文 参考訳(メタデータ) (2023-08-23T14:25:22Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - WinDB: HMD-free and Distortion-free Panoptic Video Fixation Learning [70.15653649348674]
本稿では,パン光学ビデオのための動的ぼかし (WinDB) 固定コレクション手法を提案する。
225以上のカテゴリをカバーする300個のパノプティクスクリップを含む、新しいPanopticVideo-300データセットをリリースしました。
WinDBアプローチを使用すると、頻繁で集中的な“固定シフト”が存在します。
論文 参考訳(メタデータ) (2023-05-23T10:25:22Z) - FSVVD: A Dataset of Full Scene Volumetric Video [2.9151420469958533]
本稿では、現在最も広く使われているデータフォーマット、ポイントクラウドに焦点を当て、フルシーンのボリュームビデオデータセットを初めてリリースする。
包括的データセット記述と分析を行い、このデータセットを潜在的に活用する。
論文 参考訳(メタデータ) (2023-03-07T02:31:08Z) - HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。
本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。
我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4~12%向上したことを観察した。
論文 参考訳(メタデータ) (2021-10-05T01:18:15Z) - Video Crowd Localization with Multi-focus Gaussian Neighbor Attention
and a Large-Scale Benchmark [35.607604087583425]
我々はGNANetと呼ばれる統合ニューラルネットワークを開発し、ビデオクリップ中のヘッドセンターを正確に見つける。
この分野での今後の研究を促進するために,SenseCrowdという大規模ビデオベンチマークを導入する。
提案手法は,ビデオ群集のローカライゼーションとカウントの両面において,最先端のパフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2021-07-19T06:59:27Z) - Towards End-to-end Video-based Eye-Tracking [50.0630362419371]
画像のみから視線を推定することは、観察不可能な人固有の要因のために難しい課題である。
本稿では,これらの意味的関係と時間的関係を明確に学習することを目的とした,新しいデータセットとアタッチメント手法を提案する。
視覚刺激からの情報と視線画像の融合が,文献に記録された人物と同じような性能を達成することにつながることを実証した。
論文 参考訳(メタデータ) (2020-07-26T12:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。