論文の概要: Omnidirectional Video Super-Resolution using Deep Learning
- arxiv url: http://arxiv.org/abs/2506.14803v1
- Date: Tue, 03 Jun 2025 05:59:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.69048
- Title: Omnidirectional Video Super-Resolution using Deep Learning
- Title(参考訳): 深層学習を用いた全方位ビデオ超解法
- Authors: Arbind Agrahari Baniya, Tsz-Kwan Lee, Peter W. Eklund, Sunil Aryal,
- Abstract要約: 360degビデオにおける空間解像度の制限は、それぞれの視野を適切なピクセルで表現することはできない。
本稿では,360deg VSR(360deg Video Super-Resolution)のための新しいディープラーニングモデルを提案し,S3PO(Spherical Signal Super- resolution with a Proportioned optimization)を提案する。
S3POはアライメントのような従来のVSR技術とは無関係に、注意機構を備えたリカレントモデリングを採用する。
- 参考スコア(独自算出の注目度): 3.281128493853064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Omnidirectional Videos (or 360{\deg} videos) are widely used in Virtual Reality (VR) to facilitate immersive and interactive viewing experiences. However, the limited spatial resolution in 360{\deg} videos does not allow for each degree of view to be represented with adequate pixels, limiting the visual quality offered in the immersive experience. Deep learning Video Super-Resolution (VSR) techniques used for conventional videos could provide a promising software-based solution; however, these techniques do not tackle the distortion present in equirectangular projections of 360{\deg} video signals. An additional obstacle is the limited availability of 360{\deg} video datasets for study. To address these issues, this paper creates a novel 360{\deg} Video Dataset (360VDS) with a study of the extensibility of conventional VSR models to 360{\deg} videos. This paper further proposes a novel deep learning model for 360{\deg} Video Super-Resolution (360{\deg} VSR), called Spherical Signal Super-resolution with a Proportioned Optimisation (S3PO). S3PO adopts recurrent modelling with an attention mechanism, unbound from conventional VSR techniques like alignment. With a purpose-built feature extractor and a novel loss function addressing spherical distortion, S3PO outperforms most state-of-the-art conventional VSR models and 360{\deg}~specific super-resolution models on 360{\deg} video datasets. A step-wise ablation study is presented to understand and demonstrate the impact of the chosen architectural sub-components, targeted training and optimisation.
- Abstract(参考訳): Omnidirectional Videos(または360{\deg}ビデオ)はVR(Virtual Reality)において没入感とインタラクティブな視聴体験を促進するために広く利用されている。
しかし、360{\deg}ビデオにおける空間解像度の制限は、それぞれの視野を適切なピクセルで表現することができず、没入感のある体験で提供される視覚的品質を制限する。
従来のビデオに使用される深層学習ビデオ超解法(VSR)技術は、有望なソフトウェアベースのソリューションを提供することができるが、これらの技術は360{\deg}ビデオ信号の等角射影に存在する歪みに対処しない。
もうひとつの障害は、研究用に360{\deg}ビデオデータセットが限られていることだ。
これらの課題に対処するために,従来のVSRモデルから360{\deg}ビデオへの拡張性について検討した,360VDS(360{\deg} Video Dataset)を新たに作成する。
本稿では,360{\deg} Video Super-Resolution (360{\deg} VSR) の新たな深層学習モデルを提案し,Spherical Signal Super- resolution with a Proportioned Optimisation (S3PO) を提案する。
S3POはアライメントのような従来のVSR技術とは無関係に、注意機構を備えたリカレントモデリングを採用する。
目的に構築された特徴抽出器と、球面歪みに対応する新しい損失関数により、S3POは、ほとんどの最先端の従来のVSRモデルと、360{\deg} ビデオデータセット上の特定の超解像モデルより優れている。
ステップワイズ・アブレーション(Step-wise ablation)研究は、選択されたアーキテクチャサブコンポーネント、ターゲットトレーニング、最適化の影響を理解し、実証するために提示される。
関連論文リスト
- VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Beyond the Frame: Generating 360° Panoramic Videos from Perspective Videos [64.10180665546237]
360degのビデオは、私たちの周囲のより完全な視点を提供する。
既存のビデオモデルは、標準的なビデオを作るのに優れているが、完全なパノラマビデオを生成する能力は、まだ明らかになっていない。
高品質なデータフィルタリングパイプラインを開発し、双方向のトレーニングデータをキュレートし、360度ビデオ生成の品質を向上させる。
実験結果から,本モデルでは実写的でコヒーレントな360デグ映像を撮影できることが示された。
論文 参考訳(メタデータ) (2025-04-10T17:51:38Z) - MVSplat360: Feed-Forward 360 Scene Synthesis from Sparse Views [90.26609689682876]
MVSplat360は多様な現実世界シーンの360degノベルビュー合成(NVS)のためのフィードフォワードアプローチであり、スパース観測のみを用いて紹介する。
この設定は、入力ビュー間の重複が最小限であり、提供された視覚情報が不十分であるために本質的に不適切である。
私たちのモデルは、エンドツーエンドのトレーニングが可能で、5つのスパースなインプットビューで任意のビューのレンダリングをサポートしています。
論文 参考訳(メタデータ) (2024-11-07T17:59:31Z) - 360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation [13.122586587748218]
本稿では,Omnidirectional Video Frame Interpolationのためのベンチマークデータセットである360VFIを紹介する。
本稿では,全方向ビデオの歪みをネットワークに導入し,歪みを変調する実用的な実装を提案する。
論文 参考訳(メタデータ) (2024-07-19T06:50:24Z) - Heterogeneous 360 Degree Videos in Metaverse: Differentiated
Reinforcement Learning Approaches [10.0580903923777]
本稿では、フレームレートとサイバーシックネスの異なるヘテロジニアス360度ビデオのための新しいQuality of Serviceモデルを提案する。
本稿では,自己設計の深部強化学習アルゴリズムを用いたフレームスロット構造とフレームワイズ最適化を提案する。
論文 参考訳(メタデータ) (2023-08-08T06:47:16Z) - OPDN: Omnidirectional Position-aware Deformable Network for
Omnidirectional Image Super-Resolution [18.138867445188293]
我々は360度全方位画像超解像のための2段階のフレームワークを提案する。
提案手法は,360deg全方位画像超解像のNTIRE 2023チャレンジにおいて,優れた性能を実現している。
論文 参考訳(メタデータ) (2023-04-26T11:47:40Z) - Panoramic Vision Transformer for Saliency Detection in 360{\deg} Videos [48.54829780502176]
パノラマ・ビジョン・トランス (PAVER) という新しいフレームワークを提案する。
我々は、変形可能な畳み込みを備えた視覚変換器を用いてエンコーダを設計し、通常のビデオからトレーニング済みのモデルを追加モジュールや微調整なしでアーキテクチャにプラグインできるようにする。
本稿では,VQA-ODVにおける全方位映像品質評価タスクを用いて,従属性予測モデルの有用性を実証する。
論文 参考訳(メタデータ) (2022-09-19T12:23:34Z) - ATSal: An Attention Based Architecture for Saliency Prediction in 360
Videos [5.831115928056554]
本稿では,360度ビデオの注目度に基づく新しいサリエンシモデルであるATSalを提案する。
提案したアプローチを,Salient360!とVR-EyeTrackingという2つのデータセット上で,最先端のSaliencyモデルと比較する。
80以上のODVビデオ(75K以上のフレーム)の実験結果から,提案手法は既存の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2020-11-20T19:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。