論文の概要: Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2407.14126v1
- Date: Fri, 19 Jul 2024 08:51:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 18:13:50.055802
- Title: Mono-ViFI: A Unified Learning Framework for Self-supervised Single- and Multi-frame Monocular Depth Estimation
- Title(参考訳): Mono-ViFI: 自己教師型シングルフレームおよびマルチフレーム単眼深度推定のための統一学習フレームワーク
- Authors: Jinfeng Liu, Lingtong Kong, Bo Li, Zerong Wang, Hong Gu, Jinwei Chen,
- Abstract要約: 最近の方法では、既存のカメラビュー間でのみビュー合成が行われており、ガイダンスが不十分である。
フローベースビデオフレーム作成(VFI)により、より仮想的なカメラビューを合成しようと試みる。
多フレーム推論では、MaryDepthのような明示的な幾何ベースのメソッドで発生する動的オブジェクトの問題を横取りするために、機能融合パラダイムに戻ります。
シングルフレームとマルチフレームの奥行きを双方向に接続するために,Mono-ViFIという自己教師型学習フレームワークを構築した。
- 参考スコア(独自算出の注目度): 11.611045114232187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised monocular depth estimation has gathered notable interest since it can liberate training from dependency on depth annotations. In monocular video training case, recent methods only conduct view synthesis between existing camera views, leading to insufficient guidance. To tackle this, we try to synthesize more virtual camera views by flow-based video frame interpolation (VFI), termed as temporal augmentation. For multi-frame inference, to sidestep the problem of dynamic objects encountered by explicit geometry-based methods like ManyDepth, we return to the feature fusion paradigm and design a VFI-assisted multi-frame fusion module to align and aggregate multi-frame features, using motion and occlusion information obtained by the flow-based VFI model. Finally, we construct a unified self-supervised learning framework, named Mono-ViFI, to bilaterally connect single- and multi-frame depth. In this framework, spatial data augmentation through image affine transformation is incorporated for data diversity, along with a triplet depth consistency loss for regularization. The single- and multi-frame models can share weights, making our framework compact and memory-efficient. Extensive experiments demonstrate that our method can bring significant improvements to current advanced architectures. Source code is available at https://github.com/LiuJF1226/Mono-ViFI.
- Abstract(参考訳): 自己教師付き単眼深度推定は、深度アノテーションへの依存からトレーニングを解放できるため、注目すべき関心を集めている。
近年のモノクロビデオトレーニングでは、既存のカメラビュー間でのみビュー合成が行われており、ガイダンスが不十分である。
これを解決するために、フローベースビデオフレーム補間(VFI)により、より仮想的なカメラビューを合成し、時間的拡張(temporal augmentation)と呼ぶ。
マルチフレーム推論では,MultiDepthのような明示的な幾何学的手法で発生する動的オブジェクトの問題を横取りするために,フローベースVFIモデルにより得られた動き情報と閉塞情報を用いて,特徴融合パラダイムに戻り,VFIを利用した多フレーム融合モジュールを設計する。
最後に,単一フレームと複数フレームの深度を双方向に接続する,Mono-ViFIという自己教師型学習フレームワークを構築した。
本フレームワークでは, 画像アフィン変換による空間データ拡張をデータ多様性に応用し, 正規化のための三重項深度整合損失を発生させる。
シングルフレームおよびマルチフレームモデルは重みを共有でき、我々のフレームワークはコンパクトでメモリ効率が良い。
大規模な実験により、我々の手法が現在の高度なアーキテクチャに大幅な改善をもたらすことが実証された。
ソースコードはhttps://github.com/LiuJF1226/Mono-ViFIで入手できる。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - MultiDiff: Consistent Novel View Synthesis from a Single Image [60.04215655745264]
MultiDiffは、単一のRGB画像からシーンを一貫した新しいビュー合成のための新しいアプローチである。
以上の結果から,MultiDiffは,課題の多いリアルタイムデータセットであるRealEstate10KとScanNetにおいて,最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-26T17:53:51Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Exploring the Mutual Influence between Self-Supervised Single-Frame and
Multi-Frame Depth Estimation [10.872396009088595]
単フレームおよび多フレーム深度推定のための新しい自己教師型トレーニングフレームワークを提案する。
まず,複数フレームモデルのトレーニングを行うために,一フレームの深度でガイドされる画素単位の適応型深度サンプリングモジュールを導入する。
次に、最小再投射に基づく蒸留損失を利用して、知識を多フレーム深度ネットワークから単一フレームネットワークに転送する。
論文 参考訳(メタデータ) (2023-04-25T09:39:30Z) - SimDistill: Simulated Multi-modal Distillation for BEV 3D Object
Detection [56.24700754048067]
多視点カメラによる3Dオブジェクト検出は低コストで普及しているが、カメラデータのみから正確に3D形状を推定することは依然として困難である。
モデルアーキテクチャと蒸留戦略を慎重に構築し,シミュレートされたマルチモーダル蒸留(SimDistill)法を提案する。
我々のSimDistillは、コスト効率のよいカメラのみの配置を維持しながら、3Dオブジェクト検出のためのより良い特徴表現を学習することができる。
論文 参考訳(メタデータ) (2023-03-29T16:08:59Z) - Learning Monocular Depth in Dynamic Scenes via Instance-Aware Projection
Consistency [114.02182755620784]
本稿では,複数の動的物体の6-DoF動作,エゴモーション,深度を,監督なしで一眼レフカメラで明示的にモデル化する,エンドツーエンドのジョイントトレーニングフレームワークを提案する。
筆者らのフレームワークは,最先端の深度・動き推定法より優れていた。
論文 参考訳(メタデータ) (2021-02-04T14:26:42Z) - Frame Aggregation and Multi-Modal Fusion Framework for Video-Based
Person Recognition [13.875674649636874]
ビデオに基づく人物認識のためのフレームアグリゲーションとマルチモーダルフュージョン(FAMF)フレームワークを提案する。
FAMFは顔の特徴を集約し、ビデオ内の人物を特定するためのマルチモーダル情報を組み込む。
本稿では,NetVLADにアテンション機構を導入することで,低品質フレームの影響を効果的に低減できることを示す。
論文 参考訳(メタデータ) (2020-10-19T08:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。