論文の概要: Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes
- arxiv url: http://arxiv.org/abs/2304.08993v1
- Date: Tue, 18 Apr 2023 13:55:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-19 14:30:42.235962
- Title: Learning to Fuse Monocular and Multi-view Cues for Multi-frame Depth
Estimation in Dynamic Scenes
- Title(参考訳): 動的シーンにおける複数フレーム深度推定のための単眼・多眼キューの融合学習
- Authors: Rui Li, Dong Gong, Wei Yin, Hao Chen, Yu Zhu, Kaixuan Wang, Xiaozhi
Chen, Jinqiu Sun, Yanning Zhang
- Abstract要約: 一般化されたマスクを必要とせず,ボリュームとして符号化された多視点と単眼のキューを融合させる新しい手法を提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と性能を実証する。
- 参考スコア(独自算出の注目度): 51.20150148066458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-frame depth estimation generally achieves high accuracy relying on the
multi-view geometric consistency. When applied in dynamic scenes, e.g.,
autonomous driving, this consistency is usually violated in the dynamic areas,
leading to corrupted estimations. Many multi-frame methods handle dynamic areas
by identifying them with explicit masks and compensating the multi-view cues
with monocular cues represented as local monocular depth or features. The
improvements are limited due to the uncontrolled quality of the masks and the
underutilized benefits of the fusion of the two types of cues. In this paper,
we propose a novel method to learn to fuse the multi-view and monocular cues
encoded as volumes without needing the heuristically crafted masks. As unveiled
in our analyses, the multi-view cues capture more accurate geometric
information in static areas, and the monocular cues capture more useful
contexts in dynamic areas. To let the geometric perception learned from
multi-view cues in static areas propagate to the monocular representation in
dynamic areas and let monocular cues enhance the representation of multi-view
cost volume, we propose a cross-cue fusion (CCF) module, which includes the
cross-cue attention (CCA) to encode the spatially non-local relative
intra-relations from each source to enhance the representation of the other.
Experiments on real-world datasets prove the significant effectiveness and
generalization ability of the proposed method.
- Abstract(参考訳): マルチフレーム深度推定は一般に、多視点幾何学的一貫性に依存する高い精度を達成する。
ダイナミックなシーン、例えば自律運転に適用する場合、この一貫性は通常、ダイナミックな領域で違反され、破損した推定に繋がる。
多くのマルチフレーム手法は、それらを明示的なマスクで識別し、局所的な単眼深度または特徴として表される単眼深度で多眼深度を補正することで動的領域を処理する。
マスクの制御不能な品質と、2種類のキューの融合による未使用の利点により、改善は制限されている。
本稿では,ヒューリスティックなマスクを必要とせず,ボリュームとして符号化された多視点と単眼の手がかりを融合させる新しい手法を提案する。
解析で明らかになったように、多視点の手がかりは静的領域におけるより正確な幾何学的情報を捉え、単眼の手がかりは動的領域におけるより有用な文脈を捉えている。
静的領域における多視点手がかりから学習した幾何学的知覚を動的領域における単眼表現に伝播させ、単眼的キューを多視点コストボリュームの表現を強化するために、各ソースから空間的に非局所的な相対的関係をエンコードするクロスキュー注意(cca)を含むクロスキュー融合(ccf)モジュールを提案する。
実世界のデータセットを用いた実験は,提案手法の有効性と一般化能力を示す。
関連論文リスト
- A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding [76.44979557843367]
本稿では,事前の深度範囲を排除した新しい多視点ステレオ(MVS)フレームワークを提案する。
長距離コンテキスト情報を集約するMDA(Multi-view Disparity Attention)モジュールを導入する。
ソース画像のエピポーラ線上のサンプリング点に対応する電流画素の品質を明示的に推定する。
論文 参考訳(メタデータ) (2024-11-04T08:50:16Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - OmniLocalRF: Omnidirectional Local Radiance Fields from Dynamic Videos [14.965321452764355]
我々はOmnidirectional Local Radiance Fields (OmniLocalRF)と呼ばれる新しいアプローチを導入し、静的のみのシーンビューをレンダリングする。
本手法は局所放射界の原理と全方位光の双方向最適化を組み合わせたものである。
実験により,OmniLocalRFは定性的,定量的に既存手法より優れていることを確認した。
論文 参考訳(メタデータ) (2024-03-31T12:55:05Z) - GSDC Transformer: An Efficient and Effective Cue Fusion for Monocular
Multi-Frame Depth Estimation [7.158264965010546]
単分子多フレーム深度推定におけるキュー融合の効率的な構成法を提案する。
我々は、正確な形状に頼ることなく、シーン特性をスーパートークンの形で表現する。
本手法は,KITTIデータセット上での高速核融合速度で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-09-29T08:43:16Z) - Multi-Spectral Image Stitching via Spatial Graph Reasoning [52.27796682972484]
空間グラフ推論に基づくマルチスペクトル画像縫合法を提案する。
同一のビュー位置から複数スケールの補完機能をノードに埋め込む。
空間的・チャネル的次元に沿った長距離コヒーレンスを導入することにより、画素関係の相補性とチャネル相互依存性は、整列したマルチビュー特徴の再構築に寄与する。
論文 参考訳(メタデータ) (2023-07-31T15:04:52Z) - Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。
マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-10T06:28:29Z) - Attentive Multi-View Deep Subspace Clustering Net [4.3386084277869505]
我々は,AMVDSN(Attentive Multi-View Deep Subspace Nets)を提案する。
提案手法は,コンセンサス情報とビュー固有情報の両方を明示的に考慮した有意な潜在表現を求める。
7つの実世界のデータセットに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-12-23T12:57:26Z) - Self-supervised Human Detection and Segmentation via Multi-view
Consensus [116.92405645348185]
本稿では,トレーニング中に幾何学的制約を多視点一貫性という形で組み込むマルチカメラフレームワークを提案する。
本手法は,標準ベンチマークから視覚的に外れた画像に対して,最先端の自己監視的人物検出とセグメンテーション技術に勝ることを示す。
論文 参考訳(メタデータ) (2020-12-09T15:47:21Z) - Self-Supervised Joint Learning Framework of Depth Estimation via
Implicit Cues [24.743099160992937]
深度推定のための自己教師型共同学習フレームワークを提案する。
提案するフレームワークは,KITTIおよびMake3Dデータセット上での最先端(SOTA)よりも優れている。
論文 参考訳(メタデータ) (2020-06-17T13:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。