論文の概要: Stereo-Knowledge Distillation from dpMV to Dual Pixels for Light Field Video Reconstruction
- arxiv url: http://arxiv.org/abs/2405.11823v1
- Date: Mon, 20 May 2024 06:34:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 13:53:58.497927
- Title: Stereo-Knowledge Distillation from dpMV to Dual Pixels for Light Field Video Reconstruction
- Title(参考訳): 光場画像再構成のためのdpMVからデュアルピクセルへのステレオ知識蒸留
- Authors: Aryan Garg, Raghav Mallampali, Akshat Joshi, Shrisudhan Govindarajan, Kaushik Mitra,
- Abstract要約: この研究は、暗黙的または明示的に、高精度な暗黒ステレオ知識を効率の良いデュアルピクセルの学生ネットワークに蒸留することで、忠実な再構築を可能にするという仮説を立てた。
暗黒知識蒸留仮説を検証するため,第1,第1,第2の2画素ビデオデータセットdpMVを収集した。
これらの手法は純粋に単分子解よりも優れており、特にデュアルピクセルからの忠実なガイダンスを用いて、前景と背景の分離に挑戦する。
- 参考スコア(独自算出の注目度): 12.519930982515802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dual pixels contain disparity cues arising from the defocus blur. This disparity information is useful for many vision tasks ranging from autonomous driving to 3D creative realism. However, directly estimating disparity from dual pixels is less accurate. This work hypothesizes that distilling high-precision dark stereo knowledge, implicitly or explicitly, to efficient dual-pixel student networks enables faithful reconstructions. This dark knowledge distillation should also alleviate stereo-synchronization setup and calibration costs while dramatically increasing parameter and inference time efficiency. We collect the first and largest 3-view dual-pixel video dataset, dpMV, to validate our explicit dark knowledge distillation hypothesis. We show that these methods outperform purely monocular solutions, especially in challenging foreground-background separation regions using faithful guidance from dual pixels. Finally, we demonstrate an unconventional use case unlocked by dpMV and implicit dark knowledge distillation from an ensemble of teachers for Light Field (LF) video reconstruction. Our LF video reconstruction method is the fastest and most temporally consistent to date. It remains competitive in reconstruction fidelity while offering many other essential properties like high parameter efficiency, implicit disocclusion handling, zero-shot cross-dataset transfer, geometrically consistent inference on higher spatial-angular resolutions, and adaptive baseline control. All source code is available at the anonymous repository https://github.com/Aryan-Garg.
- Abstract(参考訳): デュアルピクセルは、デフォーカスぼけから生じる不透明な手がかりを含む。
この異質な情報は、自動運転から3Dクリエイティブリアリズムまで、多くのビジョンタスクに役立ちます。
しかし、デュアルピクセルとの差を直接推定するのは正確ではない。
この研究は、暗黙的または明示的に、高精度な暗黒ステレオ知識を効率の良いデュアルピクセルの学生ネットワークに蒸留することで、忠実な再構築を可能にするという仮説を立てた。
このダークナレッジ蒸留は、パラメータと推論時間効率を劇的に増加させながら、ステレオ同期セットアップとキャリブレーションコストを緩和する。
暗黒知識蒸留仮説を検証するため,第1,第1,第2の2画素ビデオデータセットdpMVを収集した。
これらの手法は純粋に単分子解よりも優れており、特にデュアルピクセルからの忠実なガイダンスを用いて、前景と背景の分離に挑戦する。
最後に,dpMVによるアンロックと暗黙の暗黙の知識蒸留を,光電場(LF)ビデオ再構成のための教師のアンサンブルから示す。
我々のLFビデオ再構成法は,現在までに最も高速かつ時間的に一貫性がある。
高パラメータ効率、暗黙の非閉塞処理、ゼロショットのクロスデータセット転送、高次空間角分解能の幾何的一貫した推論、適応的ベースライン制御など、多くの重要な特性を提供する一方で、再現性には競争力がある。
すべてのソースコードは匿名リポジトリhttps://github.com/Aryan-Garg.comで入手できる。
関連論文リスト
- MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Neural Radiance Fields with Torch Units [19.927273454898295]
学習に基づく3D再構成法は産業用途に広く用いられている。
本稿では,よりコンテキスト情報を持つ単一カメラ光線を奨励する新しい推論パターンを提案する。
トーチライトとして、画像のパッチを描画する手法の光線を要約するため、提案手法をTorch-NeRFと呼ぶ。
論文 参考訳(メタデータ) (2024-04-03T10:08:55Z) - RayMVSNet++: Learning Ray-based 1D Implicit Fields for Accurate
Multi-View Stereo [21.209964556493368]
RayMVSNetは、シーン深度を示すゼロクロスポイントを用いて、各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習する。
RayMVSNet++はScanNetデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-07-16T02:10:47Z) - Towards Nonlinear-Motion-Aware and Occlusion-Robust Rolling Shutter
Correction [54.00007868515432]
既存の手法では、一様速度仮定による補正の精度を推定する上で、課題に直面している。
本稿では,個々の画素の高次補正場を正確に推定する,幾何的回転シャッター(QRS)運動解法を提案する。
提案手法は,Carla-RS,Fastec-RS,BS-RSCの各データセット上で,PSNRの+4.98,+0.77,+4.33を超える。
論文 参考訳(メタデータ) (2023-03-31T15:09:18Z) - MEStereo-Du2CNN: A Novel Dual Channel CNN for Learning Robust Depth
Estimates from Multi-exposure Stereo Images for HDR 3D Applications [0.22940141855172028]
マルチ露光ステレオ深度推定のための新しいディープアーキテクチャを開発した。
アーキテクチャの立体深度推定コンポーネントとして,モノ・ステレオ・トランスファー学習アプローチをデプロイする。
性能の面では、提案モデルは最先端のモノクラーおよびステレオ深度推定法を超越している。
論文 参考訳(メタデータ) (2022-06-21T13:23:22Z) - BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View
Representation [116.6111047218081]
本稿では,汎用マルチタスクマルチセンサ融合フレームワークであるBEVFusionを紹介する。
共有鳥眼ビュー表示空間におけるマルチモーダル特徴を統一する。
3Dオブジェクト検出では1.3%高いmAPとNDS、BEVマップのセグメンテーションでは13.6%高いmIoU、コストは1.9倍である。
論文 参考訳(メタデータ) (2022-05-26T17:59:35Z) - RayMVSNet: Learning Ray-based 1D Implicit Fields for Accurate Multi-View
Stereo [35.22032072756035]
RayMVSNetは、シーン深度を示すゼロクロスポイントを用いて、各カメラ線に沿った1次元暗黙フィールドの逐次予測を学習する。
本手法は,従来の学習手法よりも,DTUとTurps & Templesのデータセットの上位にランク付けする。
論文 参考訳(メタデータ) (2022-04-04T08:43:38Z) - IterMVS: Iterative Probability Estimation for Efficient Multi-View
Stereo [71.84742490020611]
IterMVSは高解像度マルチビューステレオのための新しいデータ駆動方式である。
隠れ状態の深さの画素単位の確率分布を符号化するGRUに基づく新しい推定器を提案する。
DTU, タンク&テンプル, ETH3Dにおける本手法の有効性と有効性を検証する。
論文 参考訳(メタデータ) (2021-12-09T18:58:02Z) - SMD-Nets: Stereo Mixture Density Networks [68.56947049719936]
SMD-Nets(Stereo Mixture Density Networks)は、幅広い2Dおよび3Dアーキテクチャに対応したシンプルで効果的な学習フレームワークです。
具体的には,バイモーダル混合密度を出力表現として活用し,不連続近傍の鋭く正確な不一致推定を可能にすることを示す。
我々は8Mpx解像度のステレオペアと現実世界のステレオデータセットからなる、新しい高解像度でリアルな合成ステレオデータセットに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2021-04-08T16:15:46Z) - Du$^2$Net: Learning Depth Estimation from Dual-Cameras and Dual-Pixels [16.797169907541164]
本稿では,デュアルカメラのステレオとデュアルピクセルセンサのステレオを組み合わせた深度推定のためのニューラルネットワークに基づく新しいアプローチを提案する。
我々のネットワークは、2つの情報ソースを融合するために新しいアーキテクチャを使用し、純粋な双眼鏡ステレオマッチングの限界を克服することができる。
論文 参考訳(メタデータ) (2020-03-31T15:39:43Z) - Multi-View Photometric Stereo: A Robust Solution and Benchmark Dataset
for Spatially Varying Isotropic Materials [65.95928593628128]
多視点光度ステレオ技術を用いて3次元形状と空間的に異なる反射率の両方をキャプチャする手法を提案する。
我々のアルゴリズムは、遠近点光源と遠近点光源に適している。
論文 参考訳(メタデータ) (2020-01-18T12:26:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。