論文の概要: SalFormer360: a transformer-based saliency estimation model for 360-degree videos
- arxiv url: http://arxiv.org/abs/2602.04584v1
- Date: Wed, 04 Feb 2026 14:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.564696
- Title: SalFormer360: a transformer-based saliency estimation model for 360-degree videos
- Title(参考訳): SalFormer360:360度ビデオのためのトランスフォーマーに基づく唾液度推定モデル
- Authors: Mahmoud Z. A. Wahba, Francesco Barbato, Sara Baldoni, Federica Battisti,
- Abstract要約: 本研究では,変換器アーキテクチャ上に構築された360度ビデオのための新しい唾液度推定モデルであるSalFormer360を提案する。
私たちのアプローチは、既存のエンコーダアーキテクチャ、SegFormer、カスタムデコーダの組み合わせに基づいています。
SalFormer360が既存の最先端メソッドより優れていることを示すのは、最も大きな3つのベンチマークデータセットの実験である。
- 参考スコア(独自算出の注目度): 6.699918556514895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Saliency estimation has received growing attention in recent years due to its importance in a wide range of applications. In the context of 360-degree video, it has been particularly valuable for tasks such as viewport prediction and immersive content optimization. In this paper, we propose SalFormer360, a novel saliency estimation model for 360-degree videos built on a transformer-based architecture. Our approach is based on the combination of an existing encoder architecture, SegFormer, and a custom decoder. The SegFormer model was originally developed for 2D segmentation tasks, and it has been fine-tuned to adapt it to 360-degree content. To further enhance prediction accuracy in our model, we incorporated Viewing Center Bias to reflect user attention in 360-degree environments. Extensive experiments on the three largest benchmark datasets for saliency estimation demonstrate that SalFormer360 outperforms existing state-of-the-art methods. In terms of Pearson Correlation Coefficient, our model achieves 8.4% higher performance on Sport360, 2.5% on PVS-HM, and 18.6% on VR-EyeTracking compared to previous state-of-the-art.
- Abstract(参考訳): 近年、サリエンシ推定は、広範囲のアプリケーションで重要視されているため、注目を集めている。
360度ビデオの文脈では、ビューポート予測や没入型コンテンツの最適化といったタスクに特に有用である。
本稿では,変換器アーキテクチャ上に構築された360度ビデオの新たな解像度推定モデルであるSalFormer360を提案する。
私たちのアプローチは、既存のエンコーダアーキテクチャ、SegFormer、カスタムデコーダの組み合わせに基づいています。
SegFormerモデルはもともと2Dセグメンテーションタスク用に開発されたもので、360度コンテンツに適応するように微調整されている。
モデルの予測精度をさらに高めるため,360度環境におけるユーザの注意を反映するビューイングセンターバイアスを組み込んだ。
SalFormer360が既存の最先端の手法より優れていることを示す。
ピアソン相関係数は,Sport360では8.4%,PSV-HMでは2.5%,VR-EyeTrackingでは18.6%,最先端では8.4%であった。
関連論文リスト
- RPG360: Robust 360 Depth Estimation with Perspective Foundation Models and Graph Optimization [48.99932182976206]
RPG360は、トレーニング不要のロバストな360度モノクル深度推定法である。
グラフに基づく最適化を用いた新しい深度スケールアライメント手法を提案する。
提案手法は,Matterport3D,Stanford2D3D,360Locなど,多様なデータセットにまたがる優れた性能を実現する。
論文 参考訳(メタデータ) (2025-09-28T17:33:12Z) - Sphere-GAN: a GAN-based Approach for Saliency Estimation in 360° Videos [5.66239168125163]
唾液度推定は、視覚的に関連のある領域を特定する強力なツールを提供する。
球状畳み込みを伴うジェネレーティブ・アドバーサリアル・ネットワークを利用する360degビデオのサリエンシ検出モデルであるSphere-GANを紹介する。
論文 参考訳(メタデータ) (2025-09-15T14:07:33Z) - Spherical Vision Transformers for Audio-Visual Saliency Prediction in 360-Degree Videos [15.59763872743732]
本研究では, 球面歪みの複雑さと空間音声の統合に対処するため, 塩分濃度予測の領域を360度環境まで拡張する。
この研究は、360度オーディオ・ビジュアル・サリエンシ予測のための包括的なデータセットが欠如していることから、81ODVの新しいデータセットであるYT360-EyeTrackingをキュレートする。
私たちのゴールは、360度ビデオの視覚的サリエンシを効果的に予測するために、オーディオ・ビジュアル・キューを利用する方法を探ることです。
論文 参考訳(メタデータ) (2025-08-27T19:01:47Z) - MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views [90.26609689682876]
MVSplat360は多様な現実世界シーンの360degノベルビュー合成(NVS)のためのフィードフォワードアプローチであり、スパース観測のみを用いて紹介する。
この設定は、入力ビュー間の重複が最小限であり、提供された視覚情報が不十分であるために本質的に不適切である。
私たちのモデルは、エンドツーエンドのトレーニングが可能で、5つのスパースなインプットビューで任意のビューのレンダリングをサポートしています。
論文 参考訳(メタデータ) (2024-11-07T17:59:31Z) - Depth Anywhere: Enhancing 360 Monocular Depth Estimation via Perspective Distillation and Unlabeled Data Augmentation [6.832852988957967]
ラベルのない360度データを効果的に活用する新しい深度推定フレームワークを提案する。
提案手法では,教師モデルとして最先端の視点深度推定モデルを用いて擬似ラベルを生成する。
我々は、Matterport3DやStanford2D3Dといったベンチマークデータセットに対するアプローチを検証し、深さ推定精度を大幅に改善した。
論文 参考訳(メタデータ) (2024-06-18T17:59:31Z) - Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z) - ATSal: An Attention Based Architecture for Saliency Prediction in 360
Videos [5.831115928056554]
本稿では,360度ビデオの注目度に基づく新しいサリエンシモデルであるATSalを提案する。
提案したアプローチを,Salient360!とVR-EyeTrackingという2つのデータセット上で,最先端のSaliencyモデルと比較する。
80以上のODVビデオ(75K以上のフレーム)の実験結果から,提案手法は既存の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2020-11-20T19:19:48Z) - Deep Learning for Content-based Personalized Viewport Prediction of
360-Degree VR Videos [72.08072170033054]
本稿では、位置データとビデオフレームコンテンツを活用して、将来の頭部の動きを予測するためのディープラーニングネットワークを提案する。
このニューラルネットワークに入力されるデータを最適化するために、このモデルのために、データサンプル率、データ削減、長期予測長についても検討する。
論文 参考訳(メタデータ) (2020-03-01T07:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。