論文の概要: 360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation
- arxiv url: http://arxiv.org/abs/2407.14066v3
- Date: Mon, 9 Sep 2024 03:06:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 01:41:10.449955
- Title: 360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation
- Title(参考訳): 360VFI: 全方向ビデオフレーム補間のためのデータセットとベンチマーク
- Authors: Wenxuan Lu, Mengshun Hu, Yansheng Qiu, Liang Liao, Zheng Wang,
- Abstract要約: 本稿では,Omnidirectional Video Frame Interpolationのためのベンチマークデータセットである360VFIを紹介する。
本稿では,全方向ビデオの歪みをネットワークに導入し,歪みを変調する実用的な実装を提案する。
- 参考スコア(独自算出の注目度): 13.122586587748218
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Head-mounted 360{\deg} displays and portable 360{\deg} cameras have significantly progressed, providing viewers a realistic and immersive experience. However, many omnidirectional videos have low frame rates that can lead to visual fatigue, and the prevailing plane frame interpolation methodologies are unsuitable for omnidirectional video interpolation because they are designed solely for traditional videos. This paper introduces the benchmark dataset, 360VFI, for Omnidirectional Video Frame Interpolation. We present a practical implementation that introduces a distortion prior from omnidirectional video into the network to modulate distortions. Specifically, we propose a pyramid distortion-sensitive feature extractor that uses the unique characteristics of equirectangular projection (ERP) format as prior information. Moreover, we devise a decoder that uses an affine transformation to further facilitate the synthesis of intermediate frames. 360VFI is the first dataset and benchmark that explores the challenge of Omnidirectional Video Frame Interpolation. Through our benchmark analysis, we present four different distortion condition scenes in the proposed 360VFI dataset to evaluate the challenges triggered by distortion during interpolation. Besides, experimental results demonstrate that Omnidirectional Video Interpolation can be effectively improved by modeling for omnidirectional distortion.
- Abstract(参考訳): ヘッドマウントの360{\deg}ディスプレイとポータブルの360{\deg}カメラは大幅に進歩し、視聴者はリアルで没入感のある体験を得られるようになった。
しかし、全方向ビデオの多くはフレームレートが低く、視覚疲労につながる可能性があるため、一般的な平面フレーム補間手法は従来のビデオ専用に設計されているため、全方向ビデオ補間には適さない。
本稿では,Omnidirectional Video Frame Interpolationのためのベンチマークデータセットである360VFIを紹介する。
本稿では,全方向ビデオの歪みをネットワークに導入し,歪みを変調する実用的な実装を提案する。
具体的には、等角射影(ERP)フォーマットのユニークな特徴を先行情報として用いたピラミッド歪み感性特徴抽出器を提案する。
さらに,アフィン変換を用いて中間フレームの合成を容易にするデコーダを考案した。
360VFIは、Omnidirectional Video Frame Interpolationの課題を探求する最初のデータセットとベンチマークである。
提案した360VFIデータセットに4つの異なる歪み条件シーンを示し,補間中の歪みに起因する課題を評価する。
さらに, 全方向歪みのモデル化により, 全方向ビデオ補間を効果的に改善できることを示した。
関連論文リスト
- SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。
このようなパイプラインには,魅力的なメリットが3つあります。
論文 参考訳(メタデータ) (2023-12-07T18:59:41Z) - Three-Stage Cascade Framework for Blurry Video Frame Interpolation [23.38547327916875]
Blurry Video frame (BVFI)は、低フレームレートのぼやけたビデオから高フレームレートのクリアなビデオを生成することを目的としている。
BVFIメソッドは通常、すべての貴重な情報を十分に活用できないため、最終的にはパフォーマンスを損なう。
本稿では,ぼやけたビデオから有用な情報を完全に探求する,シンプルなエンドツーエンドの3段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-09T03:37:30Z) - Spherical Vision Transformer for 360-degree Video Saliency Prediction [17.948179628551376]
本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。
球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。
本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
論文 参考訳(メタデータ) (2023-08-24T18:07:37Z) - Panoramic Vision Transformer for Saliency Detection in 360{\deg} Videos [48.54829780502176]
パノラマ・ビジョン・トランス (PAVER) という新しいフレームワークを提案する。
我々は、変形可能な畳み込みを備えた視覚変換器を用いてエンコーダを設計し、通常のビデオからトレーニング済みのモデルを追加モジュールや微調整なしでアーキテクチャにプラグインできるようにする。
本稿では,VQA-ODVにおける全方位映像品質評価タスクを用いて,従属性予測モデルの有用性を実証する。
論文 参考訳(メタデータ) (2022-09-19T12:23:34Z) - Learning Omnidirectional Flow in 360-degree Video via Siamese
Representation [11.421244426346389]
本稿では,360度視野を持つ最初の知覚合成全方位ベンチマークデータセットFLOW360を提案する。
我々はSLOF(Omnidirectional Flow)のための新しいSiamese表現学習フレームワークを提案する。
提案したフレームワークの有効性を検証し、最先端のアプローチに対して最大40%の性能改善を示す実験である。
論文 参考訳(メタデータ) (2022-08-07T02:24:30Z) - Deformable Video Transformer [44.71254375663616]
本稿では,DVT(Deformable Video Transformer)を導入し,ビデオパッチの少数のサブセットを動作情報に基づいて,各クエリロケーションへの参加を予測した。
本モデルでは,計算コストが同じか低い場合に高い精度を達成し,4つのデータセットに対して最先端の計算結果が得られる。
論文 参考訳(メタデータ) (2022-03-31T04:52:27Z) - StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via
Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。
本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。
本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-08T12:06:12Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。
FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文 参考訳(メタデータ) (2020-12-15T18:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。