Fugu-MT 論文翻訳(概要): Exploring the Mutual Influence between Self-Supervised Single-Frame and Multi-Frame Depth Estimation

論文の概要: Exploring the Mutual Influence between Self-Supervised Single-Frame and Multi-Frame Depth Estimation

arxiv url: http://arxiv.org/abs/2304.12685v2
Date: Mon, 28 Aug 2023 02:23:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 23:57:24.586981
Title: Exploring the Mutual Influence between Self-Supervised Single-Frame and Multi-Frame Depth Estimation
Title（参考訳）: 自己監督型シングルフレームと多フレーム深度推定の相互影響の探索
Authors: Jie Xiang, Yun Wang, Lifeng An, Haiyang Liu and Jian Liu
Abstract要約: 単フレームおよび多フレーム深度推定のための新しい自己教師型トレーニングフレームワークを提案する。まず,複数フレームモデルのトレーニングを行うために,一フレームの深度でガイドされる画素単位の適応型深度サンプリングモジュールを導入する。次に、最小再投射に基づく蒸留損失を利用して、知識を多フレーム深度ネットワークから単一フレームネットワークに転送する。
参考スコア（独自算出の注目度）: 10.872396009088595
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Although both self-supervised single-frame and multi-frame depth estimation methods only require unlabeled monocular videos for training, the information they leverage varies because single-frame methods mainly rely on appearance-based features while multi-frame methods focus on geometric cues. Considering the complementary information of single-frame and multi-frame methods, some works attempt to leverage single-frame depth to improve multi-frame depth. However, these methods can neither exploit the difference between single-frame depth and multi-frame depth to improve multi-frame depth nor leverage multi-frame depth to optimize single-frame depth models. To fully utilize the mutual influence between single-frame and multi-frame methods, we propose a novel self-supervised training framework. Specifically, we first introduce a pixel-wise adaptive depth sampling module guided by single-frame depth to train the multi-frame model. Then, we leverage the minimum reprojection based distillation loss to transfer the knowledge from the multi-frame depth network to the single-frame network to improve single-frame depth. Finally, we regard the improved single-frame depth as a prior to further boost the performance of multi-frame depth estimation. Experimental results on the KITTI and Cityscapes datasets show that our method outperforms existing approaches in the self-supervised monocular setting.
Abstract（参考訳）: 自己教師付きシングルフレームとマルチフレーム深度推定のどちらの手法もトレーニングのためにラベル付きモノクロビデオを必要とするが、それらが利用する情報は様々である。単フレーム法と多フレーム法の相補的な情報を考えると、多フレーム深度を改善するために単フレーム深度を活用しようとする研究もある。しかし、この手法では、単一フレーム深さと多フレーム深さの違いを生かさず、多フレーム深さを改善したり、複数フレーム深さを最適化したりすることはできない。シングルフレームとマルチフレームの相互影響をフル活用するために,新しい自己教師型トレーニングフレームワークを提案する。具体的には,まず,単一フレーム深度に誘導された画素方向適応深度サンプリングモジュールを導入し,マルチフレームモデルを訓練する。次に, 最小再プロジェクションに基づく蒸留損失を活用し, 知識をマルチフレーム深度ネットワークからシングルフレームネットワークに移し, シングルフレーム深度を改善する。最後に,改良された単一フレーム深度を,複数フレーム深度推定の性能をさらに向上させる前兆とみなす。 kitti と cityscapes のデータセットにおける実験結果から,本手法は自己教師付き単眼環境における既存手法よりも優れていることが示された。

関連論文リスト

UDPNet: Unleashing Depth-based Priors for Robust Image Dehazing [77.10640210751981]
UDPNetは、大規模で事前訓練された深度推定モデルDepthAnything V2から深度に基づく事前情報を活用する一般的なフレームワークである。提案手法は,様々なシナリオにまたがる深度認識デハージングのための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2026-01-11T13:29:02Z)
Semantic Frame Interpolation [66.81586538775366]
従来のフレームタスクは、主に少数のフレーム、テキストコントロールなし、第1フレームと第2フレームの最小差のシナリオに焦点を当てていた。最近のコミュニティ開発者は、フレーム・ツー・フレーム機能を実現するために、Wanによって表現された大きなビデオモデルを利用している。本稿では、まず、上記の2つの設定を網羅し、複数のフレームレートでの推論をサポートする、学術的定義の観点から、新しい実用的意味フレーム補間(SFI)タスクを提案する。
論文参考訳（メタデータ） (2025-07-07T16:25:47Z)
Multi-view Reconstruction via SfM-guided Monocular Depth Estimation [92.89227629434316]
マルチビュー幾何再構成のための新しい手法を提案する。深度推定プロセスに、より強力なマルチビューであるSfM情報を組み込む。本手法は, 従来の単分子深度推定法と比較して, 深度推定の精度を著しく向上させる。
論文参考訳（メタデータ） (2025-03-18T17:54:06Z)
A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文参考訳（メタデータ） (2024-11-04T08:50:16Z)
Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文参考訳（メタデータ） (2024-08-26T04:56:41Z)
Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation [11.611045114232187]
最近の方法では、既存のカメラビュー間でのみビュー合成が行われており、ガイダンスが不十分である。フローベースビデオフレーム作成(VFI)により、より仮想的なカメラビューを合成しようと試みる。多フレーム推論では、MaryDepthのような明示的な幾何ベースのメソッドで発生する動的オブジェクトの問題を横取りするために、機能融合パラダイムに戻ります。シングルフレームとマルチフレームの奥行きを双方向に接続するために,Mono-ViFIという自己教師型学習フレームワークを構築した。
論文参考訳（メタデータ） (2024-07-19T08:51:51Z)
FusionDepth: Complement Self-Supervised Monocular Depth Estimation with Cost Volume [9.912304015239313]
複数フレームの逐次制約により単眼深度を連続的に改善できる多眼深度推定フレームワークを提案する。また,本手法は,単分子推定と多視点コストボリュームを組み合わせる際の解釈可能性も向上する。
論文参考訳（メタデータ） (2023-05-10T10:38:38Z)
Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth Estimation in Dynamic Scenes [51.20150148066458]
一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
論文参考訳（メタデータ） (2023-04-18T13:55:24Z)
Multi-Frame Self-Supervised Depth Estimation with Multi-Scale Feature Fusion in Dynamic Scenes [25.712707161201802]
マルチフレーム手法は単一フレームアプローチによる単眼深度推定を改善する。最近の手法では、特徴マッチングと動的シーンのための複雑なアーキテクチャを提案する傾向がある。単純な学習フレームワークと設計された機能拡張が、優れたパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2023-03-26T05:26:30Z)
Multi-Camera Collaborative Depth Prediction via Consistent Structure Estimation [75.99435808648784]
本稿では,新しいマルチカメラ協調深度予測法を提案する。カメラ間の構造的整合性を維持しながら、大きな重なり合う領域を必要としない。 DDADおよびNuScenesデータセットの実験結果から,本手法の優れた性能を示す。
論文参考訳（メタデータ） (2022-10-05T03:44:34Z)
Multi-Frame Self-Supervised Depth with Transformers [33.00363651105475]
本稿では,コストボリューム生成のためのトランスフォーマーアーキテクチャを提案する。深度分布型エピポーラサンプリングを用いて、マッチング候補を選択する。私たちは、一連の自己と横断的なレイヤを通じて予測を洗練します。
論文参考訳（メタデータ） (2022-04-15T19:04:57Z)
Improving Monocular Visual Odometry Using Learned Depth [84.05081552443693]
単眼深度推定を応用して視力計測(VO)を改善する枠組みを提案する。我々のフレームワークの中核は、多様なシーンに対して強力な一般化能力を持つ単眼深度推定モジュールである。現在の学習型VO法と比較して,本手法は多様なシーンに対してより強力な一般化能力を示す。
論文参考訳（メタデータ） (2022-04-04T06:26:46Z)
Video Depth Estimation by Fusing Flow-to-Depth Proposals [65.24533384679657]
本稿では,映像深度推定のためのフロー・ツー・ディープス・レイヤの異なる手法を提案する。モデルは、フロー・トゥ・ディープス層、カメラ・ポーズ・リファインメント・モジュール、ディープ・フュージョン・ネットワークから構成される。提案手法は,最先端の深度推定法より優れ,合理的なデータセット一般化能力を有する。
論文参考訳（メタデータ） (2019-12-30T10:45:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。