Fugu-MT 論文翻訳(概要): 360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation

論文の概要: 360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation

arxiv url: http://arxiv.org/abs/2407.14066v1
Date: Fri, 19 Jul 2024 06:50:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 18:33:40.777949
Title: 360VFI: A Dataset and Benchmark for Omnidirectional Video Frame Interpolation
Title（参考訳）: 360VFI: 全方向ビデオフレーム補間のためのデータセットとベンチマーク
Authors: Wenxuan Lu, Mengshun Hu, Yansheng Qiu, Liang Liao, Zheng Wang,
Abstract要約: 我々は,Omnidirectional Video Frame Interpolationのためのベンチマークデータセットである360VFIを紹介する。本稿では,全方向ビデオの歪みをネットワークに導入し,歪みを変調する実用的な実装を提案する。
参考スコア（独自算出の注目度）: 13.122586587748218
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the development of VR-related techniques, viewers can enjoy a realistic and immersive experience through a head-mounted display, while omnidirectional video with a low frame rate can lead to user dizziness. However, the prevailing plane frame interpolation methodologies are unsuitable for Omnidirectional Video Interpolation, chiefly due to the lack of models tailored to such videos with strong distortion, compounded by the scarcity of valuable datasets for Omnidirectional Video Frame Interpolation. In this paper, we introduce the benchmark dataset, 360VFI, for Omnidirectional Video Frame Interpolation. We present a practical implementation that introduces a distortion prior from omnidirectional video into the network to modulate distortions. We especially propose a pyramid distortion-sensitive feature extractor that uses the unique characteristics of equirectangular projection (ERP) format as prior information. Moreover, we devise a decoder that uses an affine transformation to facilitate the synthesis of intermediate frames further. 360VFI is the first dataset and benchmark that explores the challenge of Omnidirectional Video Frame Interpolation. Through our benchmark analysis, we presented four different distortion conditions scenes in the proposed 360VFI dataset to evaluate the challenge triggered by distortion during interpolation. Besides, experimental results demonstrate that Omnidirectional Video Interpolation can be effectively improved by modeling for omnidirectional distortion.
Abstract（参考訳）: VR関連技術の開発により、視聴者はヘッドマウントディスプレイを通じてリアルで没入感のある体験を楽しめる一方、フレームレートの低い全方位ビデオはユーザーのめまいにつながる。しかし, 平面フレーム補間法は, 主に, 強い歪みを伴う映像に合わせたモデルが欠如していることから, 全方向ビデオフレーム補間のための貴重なデータセットが不足していることから, 全方向ビデオ補間には適していない。本稿では,Omnidirectional Video Frame Interpolationのためのベンチマークデータセットである360VFIを紹介する。本稿では,全方向ビデオの歪みをネットワークに導入し,歪みを変調する実用的な実装を提案する。特に,等角射影(ERP)形式の特徴を先行情報として用いたピラミッド歪み感性特徴抽出器を提案する。さらに,アフィン変換を用いて中間フレームの合成を容易にするデコーダを考案した。 360VFIは、Omnidirectional Video Frame Interpolationの課題を探求する最初のデータセットとベンチマークである。提案した360VFIデータセットに4つの異なる歪み条件を呈示し、補間時の歪みに起因する課題を評価する。さらに, 全方向歪みのモデル化により, 全方向ビデオ補間を効果的に改善できることを示した。

関連論文リスト

In-2-4D: Inbetweening from Two Single-View Images to 4D Generation [54.62824686338408]
最小限の入力設定からSplatingにおける生成4D(すなわち3D + Motion)のための新しい問題In-between2-4Dを提案する。動作中の物体の開始状態と終了状態を表す2つの画像が与えられた場合、我々のゴールは4Dで動きを生成・再構成することである。
論文参考訳（メタデータ） (2025-04-11T09:01:09Z)
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文参考訳（メタデータ） (2024-06-29T08:33:55Z)
GenDeF: Learning Generative Deformation Field for Video Generation [89.49567113452396]
我々は1つの静止画像を生成変形場(GenDeF)でワープすることで映像をレンダリングすることを提案する。このようなパイプラインには,魅力的なメリットが3つあります。
論文参考訳（メタデータ） (2023-12-07T18:59:41Z)
Three-Stage Cascade Framework for Blurry Video Frame Interpolation [23.38547327916875]
Blurry Video frame (BVFI)は、低フレームレートのぼやけたビデオから高フレームレートのクリアなビデオを生成することを目的としている。 BVFIメソッドは通常、すべての貴重な情報を十分に活用できないため、最終的にはパフォーマンスを損なう。本稿では,ぼやけたビデオから有用な情報を完全に探求する,シンプルなエンドツーエンドの3段階フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-09T03:37:30Z)
Spherical Vision Transformer for 360-degree Video Saliency Prediction [17.948179628551376]
本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
論文参考訳（メタデータ） (2023-08-24T18:07:37Z)
Panoramic Vision Transformer for Saliency Detection in 360{\deg} Videos [48.54829780502176]
パノラマ・ビジョン・トランス (PAVER) という新しいフレームワークを提案する。我々は、変形可能な畳み込みを備えた視覚変換器を用いてエンコーダを設計し、通常のビデオからトレーニング済みのモデルを追加モジュールや微調整なしでアーキテクチャにプラグインできるようにする。本稿では,VQA-ODVにおける全方位映像品質評価タスクを用いて,従属性予測モデルの有用性を実証する。
論文参考訳（メタデータ） (2022-09-19T12:23:34Z)
Learning Omnidirectional Flow in 360-degree Video via Siamese Representation [11.421244426346389]
本稿では,360度視野を持つ最初の知覚合成全方位ベンチマークデータセットFLOW360を提案する。我々はSLOF(Omnidirectional Flow)のための新しいSiamese表現学習フレームワークを提案する。提案したフレームワークの有効性を検証し、最先端のアプローチに対して最大40%の性能改善を示す実験である。
論文参考訳（メタデータ） (2022-08-07T02:24:30Z)
Deformable Video Transformer [44.71254375663616]
本稿では,DVT(Deformable Video Transformer)を導入し,ビデオパッチの少数のサブセットを動作情報に基づいて,各クエリロケーションへの参加を予測した。本モデルでは,計算コストが同じか低い場合に高い精度を達成し,4つのデータセットに対して最先端の計算結果が得られる。
論文参考訳（メタデータ） (2022-03-31T04:52:27Z)
StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pretrained StyleGAN [49.917296433657484]
ワンショット・トーキング・フェイス・ジェネレーションは、任意のポートレート画像から高品質なトーキング・フェイス・ビデオを合成することを目的としている。本研究では,事前学習したStyleGANの潜在特徴空間について検討し,優れた空間変換特性について考察する。本稿では,事前学習したStyleGANをベースとした,強力な機能セットを実現する統一フレームワークを提案する。
論文参考訳（メタデータ） (2022-03-08T12:06:12Z)
A Video Is Worth Three Views: Trigeminal Transformers for Video-based Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2021-04-05T02:50:16Z)
FLAVR: Flow-Agnostic Video Representations for Fast Frame Interpolation [97.99012124785177]
FLAVRは、3D空間時間の畳み込みを使用して、ビデオフレームのエンドツーエンドの学習と推論を可能にする柔軟で効率的なアーキテクチャです。 FLAVRは、アクション認識、光フロー推定、モーション拡大のための有用な自己解釈タスクとして役立つことを実証します。
論文参考訳（メタデータ） (2020-12-15T18:59:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。