論文の概要: Panoramic Vision Transformer for Saliency Detection in 360{\deg} Videos
- arxiv url: http://arxiv.org/abs/2209.08956v1
- Date: Mon, 19 Sep 2022 12:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 18:38:53.584004
- Title: Panoramic Vision Transformer for Saliency Detection in 360{\deg} Videos
- Title(参考訳): 360{\deg}ビデオにおけるサリエンシー検出のためのパノラマ視覚トランスフォーマ
- Authors: Heeseung Yun, Sehun Lee, Gunhee Kim
- Abstract要約: パノラマ・ビジョン・トランス (PAVER) という新しいフレームワークを提案する。
我々は、変形可能な畳み込みを備えた視覚変換器を用いてエンコーダを設計し、通常のビデオからトレーニング済みのモデルを追加モジュールや微調整なしでアーキテクチャにプラグインできるようにする。
本稿では,VQA-ODVにおける全方位映像品質評価タスクを用いて,従属性予測モデルの有用性を実証する。
- 参考スコア(独自算出の注目度): 48.54829780502176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 360$^\circ$ video saliency detection is one of the challenging benchmarks for
360$^\circ$ video understanding since non-negligible distortion and
discontinuity occur in the projection of any format of 360$^\circ$ videos, and
capture-worthy viewpoint in the omnidirectional sphere is ambiguous by nature.
We present a new framework named Panoramic Vision Transformer (PAVER). We
design the encoder using Vision Transformer with deformable convolution, which
enables us not only to plug pretrained models from normal videos into our
architecture without additional modules or finetuning but also to perform
geometric approximation only once, unlike previous deep CNN-based approaches.
Thanks to its powerful encoder, PAVER can learn the saliency from three simple
relative relations among local patch features, outperforming state-of-the-art
models for the Wild360 benchmark by large margins without supervision or
auxiliary information like class activation. We demonstrate the utility of our
saliency prediction model with the omnidirectional video quality assessment
task in VQA-ODV, where we consistently improve performance without any form of
supervision, including head movement.
- Abstract(参考訳): 360$^\circ$ビデオサリエンシ検出は、360$^\circ$ビデオの任意のフォーマットの投影において非無視の歪みと不連続が発生するため、360$^\circ$ビデオ理解のための難しいベンチマークの1つである。
本稿では,パノラマビジョントランスフォーマ(paver)という新しいフレームワークを提案する。
変形可能な畳み込みを備えた視覚変換器を用いてエンコーダを設計し、通常のビデオから事前学習したモデルを追加モジュールや微調整なしでアーキテクチャにプラグインできるだけでなく、従来の深層CNNのアプローチとは異なり、幾何近似のみを実行することができる。
強力なエンコーダのおかげで、PAVERはローカルパッチ機能間の3つの単純な相対関係からサリエンシを学習でき、Wild360ベンチマークの最先端モデルよりも、監督やクラスのアクティベーションのような補助的な情報なしで大きなマージンで性能を向上できる。
我々は,vqa-odvにおける全方位映像品質評価タスクを用いて,頭部運動を含むあらゆる形態の監視なしで一貫して性能を向上させるサリエンシー予測モデルの有用性を実証する。
関連論文リスト
- Cascaded Dual Vision Transformer for Accurate Facial Landmark Detection [9.912884384424542]
本稿では,D-ViT (Dual Vision Transformer) とLong Skip Connections (LSC) の2つのユニークな設計からなる,視覚変換器に基づく新しい顔ランドマーク検出器を提案する。
本稿では,これらの線形基底間の相互接続を学習し,チャネル分割型VTを用いてランドマーク間の固有幾何学的関係をモデル化する。
また,全ての予測ブロックに低レベルの画像特徴を提供するために,長いスキップ接続を用いることで,中間管理によって有用な情報が破棄されるのを防ぐことも提案する。
論文 参考訳(メタデータ) (2024-11-08T07:26:39Z) - MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views [90.26609689682876]
MVSplat360は多様な現実世界シーンの360degノベルビュー合成(NVS)のためのフィードフォワードアプローチであり、スパース観測のみを用いて紹介する。
この設定は、入力ビュー間の重複が最小限であり、提供された視覚情報が不十分であるために本質的に不適切である。
私たちのモデルは、エンドツーエンドのトレーニングが可能で、5つのスパースなインプットビューで任意のビューのレンダリングをサポートしています。
論文 参考訳(メタデータ) (2024-11-07T17:59:31Z) - 360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation [13.122586587748218]
本稿では,Omnidirectional Video Frame Interpolationのためのベンチマークデータセットである360VFIを紹介する。
本稿では,全方向ビデオの歪みをネットワークに導入し,歪みを変調する実用的な実装を提案する。
論文 参考訳(メタデータ) (2024-07-19T06:50:24Z) - Spherical Vision Transformer for 360-degree Video Saliency Prediction [17.948179628551376]
本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。
球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。
本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
論文 参考訳(メタデータ) (2023-08-24T18:07:37Z) - Dual-path Adaptation from Image to Video Transformers [62.056751480114784]
ViTやSwinのような視覚基盤モデルの超越する表現力を、トレーニング可能なパラメータ数だけでビデオ理解するために効率的に転送する。
本稿では,空間的および時間的適応経路に分離した新しいDualPath適応法を提案する。
論文 参考訳(メタデータ) (2023-03-17T09:37:07Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - Self-supervised Video Transformer [46.295395772938214]
あるビデオから、空間サイズやフレームレートの異なる局所的、グローバルなビューを作成します。
我々の自己監督的目的は、同じビデオが時間外であることを示す異なるビューの特徴と一致させることです。
このアプローチは4つのアクションベンチマークでうまく動作し、小さなバッチサイズでより高速に収束する。
論文 参考訳(メタデータ) (2021-12-02T18:59:02Z) - Blind VQA on 360{\deg} Video via Progressively Learning from Pixels,
Frames and Video [66.57045901742922]
360度ビデオにおけるブラインド視覚品質評価(BVQA)は,没入型マルチメディアシステムの最適化において重要な役割を担っている。
本稿では,球面映像品質に対する人間の知覚の進歩的パラダイムを考察する。
画素,フレーム,ビデオから段階的に学習することで,360度ビデオのための新しいBVQA手法(ProVQA)を提案する。
論文 参考訳(メタデータ) (2021-11-18T03:45:13Z) - Revisiting Optical Flow Estimation in 360 Videos [9.997208301312956]
我々は、視点ビデオドメインから360度ビデオドメインへのドメイン適応フレームワークとしてLiteFlowNet360を設計する。
我々は、Kernel Transformer Network(KTN)にインスパイアされた単純なカーネル変換技術を用いて、360度ビデオの固有の歪みに対処する。
実験結果から,提案アーキテクチャを用いた360度ビデオ光流量推定の有望な結果が得られた。
論文 参考訳(メタデータ) (2020-10-15T22:22:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。