論文の概要: Revisiting Optical Flow Estimation in 360 Videos
- arxiv url: http://arxiv.org/abs/2010.08045v1
- Date: Thu, 15 Oct 2020 22:22:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 04:26:15.076044
- Title: Revisiting Optical Flow Estimation in 360 Videos
- Title(参考訳): 360度映像における光フロー推定の再検討
- Authors: Keshav Bhandari, Ziliang Zong, Yan Yan
- Abstract要約: 我々は、視点ビデオドメインから360度ビデオドメインへのドメイン適応フレームワークとしてLiteFlowNet360を設計する。
我々は、Kernel Transformer Network(KTN)にインスパイアされた単純なカーネル変換技術を用いて、360度ビデオの固有の歪みに対処する。
実験結果から,提案アーキテクチャを用いた360度ビデオ光流量推定の有望な結果が得られた。
- 参考スコア(独自算出の注目度): 9.997208301312956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays 360 video analysis has become a significant research topic in the
field since the appearance of high-quality and low-cost 360 wearable devices.
In this paper, we propose a novel LiteFlowNet360 architecture for 360 videos
optical flow estimation. We design LiteFlowNet360 as a domain adaptation
framework from perspective video domain to 360 video domain. We adapt it from
simple kernel transformation techniques inspired by Kernel Transformer Network
(KTN) to cope with inherent distortion in 360 videos caused by the
sphere-to-plane projection. First, we apply an incremental transformation of
convolution layers in feature pyramid network and show that further
transformation in inference and regularization layers are not important, hence
reducing the network growth in terms of size and computation cost. Second, we
refine the network by training with augmented data in a supervised manner. We
perform data augmentation by projecting the images in a sphere and
re-projecting to a plane. Third, we train LiteFlowNet360 in a self-supervised
manner using target domain 360 videos. Experimental results show the promising
results of 360 video optical flow estimation using the proposed novel
architecture.
- Abstract(参考訳): 今日、360度ビデオ分析は高品質で低コストな360度ウェアラブルデバイスが登場して以来、この分野で重要な研究テーマとなっている。
本稿では,360度ビデオ光フロー推定のための新しいLiteFlowNet360アーキテクチャを提案する。
我々は、視点ビデオドメインから360ビデオドメインへのドメイン適応フレームワークとしてLiteFlowNet360を設計する。
我々は、カーネルトランスフォーマネットワーク(ktn)に触発された単純なカーネル変換技術を用いて、球面間投影による360度ビデオの固有歪みに対処する。
まず、機能ピラミッドネットワークにおける畳み込み層のインクリメンタル変換を適用し、推論層と正規化層のさらなる変換が重要ではないことを示し、サイズと計算コストの観点からネットワークの成長を減少させる。
第2に,拡張データを用いたトレーニングによってネットワークを洗練する。
我々は,画像を球面に投影し,平面に再投影することでデータ拡張を行う。
第3に,LiteFlowNet360を対象のドメイン360ビデオを用いて自己指導的に訓練する。
実験の結果,提案アーキテクチャを用いた360度ビデオ光流量推定の有望な結果が得られた。
関連論文リスト
- Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors [51.36238367193988]
潜時拡散モデル(LDM)を用いた360度3次元シーンのスパースビュー再構成に挑戦する。
SparseSplat360は,未完成の細部を埋めたり,新しいビューをクリーンにするために,インペイントとアーティファクト除去のカスケードを利用する手法である。
提案手法は,9つの入力ビューから360度映像全体を生成する。
論文 参考訳(メタデータ) (2024-05-26T11:01:39Z) - Spherical Vision Transformer for 360-degree Video Saliency Prediction [17.948179628551376]
本稿では,SalViT360という全方向ビデオのための視覚変換器モデルを提案する。
球面形状を意識した自己認識機構を導入し,全方向の映像を効果的に理解する。
本手法は,全方位の塩分濃度予測にタンジェント画像を用いた最初の試みであり,3つのODV塩分濃度データセットによる実験結果から,最先端の塩分濃度予測と比較して,その有効性を示した。
論文 参考訳(メタデータ) (2023-08-24T18:07:37Z) - Optical Flow Estimation in 360$^\circ$ Videos: Dataset, Model and
Application [9.99133340779672]
視覚的にも現実的な最初の360$$$of-viewビデオベンチマークデータセット、すなわちFLOW360を提案する。
本稿では,SLOF(Omnidirectional Flow)推定のための新しいSiamese表現学習フレームワークを提案する。
この学習手法は,自我中心のアクティビティ認識タスクにシアム学習スキームと全方位光フロー推定を拡張することによって,より効率的であることがさらに証明された。
論文 参考訳(メタデータ) (2023-01-27T17:50:09Z) - Panoramic Vision Transformer for Saliency Detection in 360{\deg} Videos [48.54829780502176]
パノラマ・ビジョン・トランス (PAVER) という新しいフレームワークを提案する。
我々は、変形可能な畳み込みを備えた視覚変換器を用いてエンコーダを設計し、通常のビデオからトレーニング済みのモデルを追加モジュールや微調整なしでアーキテクチャにプラグインできるようにする。
本稿では,VQA-ODVにおける全方位映像品質評価タスクを用いて,従属性予測モデルの有用性を実証する。
論文 参考訳(メタデータ) (2022-09-19T12:23:34Z) - Neural Contourlet Network for Monocular 360 Depth Estimation [37.82642960470551]
我々は360度画像の解釈可能かつスパースな表現を構築する新しい視点を提供する。
本稿では,畳み込み型ニューラルネットワークと畳み込み型トランスフォーメーションブランチからなる,畳み込み型ニューラルネットワークを提案する。
エンコーダの段階では、2種類のキューを効果的に融合させる空間スペクトル融合モジュールを設計する。
論文 参考訳(メタデータ) (2022-08-03T02:25:55Z) - Deep 360$^\circ$ Optical Flow Estimation Based on Multi-Projection
Fusion [10.603670927163002]
本稿では,広範に普及しているVRアプリケーションをサポートするために,ディープニューラルネットワークを用いた360ドル周光フロー推定に焦点を当てる。
異なる投射法を用いて訓練されたモデルにより予測される光の流れを融合する新しい多射影融合フレームワークを提案する。
また、ニューラルネットワークのトレーニングとパノラマ光フロー推定手法の評価を支援するために、最初の大規模パノラマ光フローデータセットを構築した。
論文 参考訳(メタデータ) (2022-07-27T16:48:32Z) - Distortion-Aware Loop Filtering of Intra 360^o Video Coding with
Equirectangular Projection [81.63407194858854]
等角射影(ERP)フォーマットで投影された360$o$ビデオの符号化性能を向上させるため,歪みを考慮したループフィルタリングモデルを提案する。
提案モジュールは、符号化ユニット(CU)パーティションマスクに基づいてコンテンツ特性を分析し、部分的畳み込みによって処理し、指定された領域を活性化する。
論文 参考訳(メタデータ) (2022-02-20T12:00:18Z) - Blind VQA on 360{\deg} Video via Progressively Learning from Pixels,
Frames and Video [66.57045901742922]
360度ビデオにおけるブラインド視覚品質評価(BVQA)は,没入型マルチメディアシステムの最適化において重要な役割を担っている。
本稿では,球面映像品質に対する人間の知覚の進歩的パラダイムを考察する。
画素,フレーム,ビデオから段階的に学習することで,360度ビデオのための新しいBVQA手法(ProVQA)を提案する。
論文 参考訳(メタデータ) (2021-11-18T03:45:13Z) - Unsupervised Depth Completion with Calibrated Backprojection Layers [79.35651668390496]
画像とスパース点雲から深度を推定するディープニューラルネットワークアーキテクチャを提案する。
LIDARや他のレンジセンサーから得られるビデオストリームとそれに対応するスパース点雲と、カメラの固有のキャリブレーションパラメータを用いてトレーニングする。
推論時に、トレーニングに用いるものと異なるカメラの校正を、スパース点雲と1つの画像とともにネットワークへの入力として行う。
論文 参考訳(メタデータ) (2021-08-24T05:41:59Z) - Visual Question Answering on 360{\deg} Images [96.00046925811515]
VQA 360は、360度画像上で視覚的な質問に答える新しいタスクである。
最初のVQA 360データセットを収集し、様々な質問タイプに対して、約17,000の現実世界の画像検索用トリプルを含む。
論文 参考訳(メタデータ) (2020-01-10T08:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。