論文の概要: Implicit View-Time Interpolation of Stereo Videos using Multi-Plane
Disparities and Non-Uniform Coordinates
- arxiv url: http://arxiv.org/abs/2303.17181v1
- Date: Thu, 30 Mar 2023 06:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 14:16:47.974048
- Title: Implicit View-Time Interpolation of Stereo Videos using Multi-Plane
Disparities and Non-Uniform Coordinates
- Title(参考訳): 多平面差と非一様座標を用いたステレオ映像の入射視点時間補間
- Authors: Avinash Paliwal, Andrii Tsarov and Nima Khademi Kalantari
- Abstract要約: 我々は、入力座標と2次元RGB画像間の補間可能なマッピングを近似するX-Fieldsの上に構築する。
ステレオビューにおける物体の空間的距離を低減するために,多面的不均一性を提案する。
また、X-Fieldsに対するいくつかの単純だが重要な改善も導入します。
- 参考スコア(独自算出の注目度): 10.445563506186307
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an approach for view-time interpolation of stereo
videos. Specifically, we build upon X-Fields that approximates an
interpolatable mapping between the input coordinates and 2D RGB images using a
convolutional decoder. Our main contribution is to analyze and identify the
sources of the problems with using X-Fields in our application and propose
novel techniques to overcome these challenges. Specifically, we observe that
X-Fields struggles to implicitly interpolate the disparities for large baseline
cameras. Therefore, we propose multi-plane disparities to reduce the spatial
distance of the objects in the stereo views. Moreover, we propose non-uniform
time coordinates to handle the non-linear and sudden motion spikes in videos.
We additionally introduce several simple, but important, improvements over
X-Fields. We demonstrate that our approach is able to produce better results
than the state of the art, while running in near real-time rates and having low
memory and storage costs.
- Abstract(参考訳): 本稿では,ステレオビデオのビュータイム補間に対するアプローチを提案する。
具体的には,畳み込みデコーダを用いて入力座標と2次元rgb画像間の補間可能なマッピングを近似するxフィールドを構築する。
我々の主な貢献は、アプリケーションでX-Fieldsを使用する際の問題の原因を分析し、特定し、これらの課題を克服するための新しい手法を提案することである。
具体的には、X-Fieldsは大きなベースラインカメラの差を暗黙的に補うのに苦労している。
そこで,ステレオビューにおける物体の空間距離を減少させるために,多面的差異を提案する。
さらに,ビデオ中の非線形および急な動きのスパイクを処理するための非一様時間座標を提案する。
さらに、X-Fieldよりも単純だが重要な改善をいくつか導入します。
我々は、リアルタイムに近い速度で動作し、メモリとストレージコストを低くしながら、我々のアプローチが最先端よりも優れた結果を生み出すことができることを実証する。
関連論文リスト
- Mumpy: Multilateral Temporal-view Pyramid Transformer for Video Inpainting Detection [41.4800103693756]
本稿では,空間的時間的手がかりを柔軟に協調する多面的時間的ピラミッド変換器(em MumPy)について紹介する。
提案手法は, 空間的・時間的手がかりの様々な協調関係を抽出するために, 新たに設計された多面的時間的視点を用いて, 変形可能なウィンドウベース時間的対話モジュールを導入する。
空間的および時間的手がかりの寄与強度を調整することにより, 塗装領域の同定を効果的に行うことができる。
論文 参考訳(メタデータ) (2024-04-17T03:56:28Z) - OmniLocalRF: Omnidirectional Local Radiance Fields from Dynamic Videos [14.965321452764355]
我々はOmnidirectional Local Radiance Fields (OmniLocalRF)と呼ばれる新しいアプローチを導入し、静的のみのシーンビューをレンダリングする。
本手法は局所放射界の原理と全方位光の双方向最適化を組み合わせたものである。
実験により,OmniLocalRFは定性的,定量的に既存手法より優れていることを確認した。
論文 参考訳(メタデータ) (2024-03-31T12:55:05Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Video Frame Interpolation with Stereo Event and Intensity Camera [40.07341828127157]
高品質な中間フレームを生成するための新しいステレオイベントベースVFIネットワーク(SE-VFI-Net)を提案する。
我々は,正確な光学的流れと不均一性推定を実現するために,融合した特徴を利用する。
提案するSEVFI-Netは最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2023-07-17T04:02:00Z) - Multiscale Representation for Real-Time Anti-Aliasing Neural Rendering [84.37776381343662]
Mip-NeRFは、スケール情報をエンコードする円錐フラストラムとしてマルチスケール表現を提案する。
我々は,リアルタイムなアンチエイリアスレンダリングのためのマルチスケールな明示的表現であるmip voxel grids (Mip-VoG)を提案する。
私たちのアプローチは、マルチスケールのトレーニングとリアルタイムのアンチエイリアスレンダリングを同時に提供する最初の方法です。
論文 参考訳(メタデータ) (2023-04-20T04:05:22Z) - Adaptive Human Matting for Dynamic Videos [62.026375402656754]
Adaptive Matting for Dynamic VideosはAdaMと呼ばれ、背景と背景を同時に区別するフレームワークである。
この目的を達成するために、2つの相互接続ネットワーク設計が採用されている。
提案手法が最近導入したデータセットをベンチマークし,検討した結果,行列が新たなクラス内でのベスト・イン・クラス・ジェネリザビリティを実現することがわかった。
論文 参考訳(メタデータ) (2023-04-12T17:55:59Z) - Towards Nonlinear-Motion-Aware and Occlusion-Robust Rolling Shutter
Correction [54.00007868515432]
既存の手法では、一様速度仮定による補正の精度を推定する上で、課題に直面している。
本稿では,個々の画素の高次補正場を正確に推定する,幾何的回転シャッター(QRS)運動解法を提案する。
提案手法は,Carla-RS,Fastec-RS,BS-RSCの各データセット上で,PSNRの+4.98,+0.77,+4.33を超える。
論文 参考訳(メタデータ) (2023-03-31T15:09:18Z) - Event-Based Frame Interpolation with Ad-hoc Deblurring [68.97825675372354]
本稿では,入力ビデオのアドホックを損なうイベントベースフレームの一般的な手法を提案する。
我々のネットワークは、フレーム上の最先端の手法、単一画像のデブロアリング、および共同作業のデブロアリングを一貫して上回ります。
コードとデータセットは公開されます。
論文 参考訳(メタデータ) (2023-01-12T18:19:00Z) - Video Shadow Detection via Spatio-Temporal Interpolation Consistency
Training [31.115226660100294]
本稿では、ラベル付き画像とともにラベル付きビデオフレームを画像陰影検出ネットワークトレーニングに供給するフレームワークを提案する。
次に,画素ワイド分類における一般化の促進のために,空間的および時間的整合性の制約を導出する。
さらに,画像のマルチスケール影知識学習のためのスケール・アウェア・ネットワークを設計する。
論文 参考訳(メタデータ) (2022-06-17T14:29:51Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Heuristics2Annotate: Efficient Annotation of Large-Scale Marathon
Dataset For Bounding Box Regression [8.078491757252692]
我々はマラソンランナーの大規模インザワイルドビデオデータセットを収集した。
このデータセットは、42台のハンドヘルドスマートフォンカメラで撮影された数千人のランナーの記録から成り立っている。
このような大規模データセットのアノテーションにおける課題に取り組むための新しいスキームを提案する。
論文 参考訳(メタデータ) (2021-04-06T19:08:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。