論文の概要: Monocular Depth Distribution Alignment with Low Computation
- arxiv url: http://arxiv.org/abs/2203.04538v1
- Date: Wed, 9 Mar 2022 06:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 14:23:25.569426
- Title: Monocular Depth Distribution Alignment with Low Computation
- Title(参考訳): 低演算による単眼深度分布アライメント
- Authors: Fei Sheng, Feng Xue, Yicong Chang, Wenteng Liang, Anlong Ming
- Abstract要約: 我々は、軽量ネットワークと重軽量ネットワークの精度コントラストの大部分をモデル化する。
DANetは2つの領域ごとに深度の特徴の違いを知覚することにより、合理的なシーン構造を予測する傾向にある。
DANetは、深さ分布形状とシーン深度範囲のアライメントにより、分布のドリフトを著しく軽減し、従来の重み付け手法と同等の性能を達成する。
- 参考スコア(独自算出の注目度): 15.05244258071472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of monocular depth estimation generally depends on the amount
of parameters and computational cost. It leads to a large accuracy contrast
between light-weight networks and heavy-weight networks, which limits their
application in the real world. In this paper, we model the majority of accuracy
contrast between them as the difference of depth distribution, which we call
"Distribution drift". To this end, a distribution alignment network (DANet) is
proposed. We firstly design a pyramid scene transformer (PST) module to capture
inter-region interaction in multiple scales. By perceiving the difference of
depth features between every two regions, DANet tends to predict a reasonable
scene structure, which fits the shape of distribution to ground truth. Then, we
propose a local-global optimization (LGO) scheme to realize the supervision of
global range of scene depth. Thanks to the alignment of depth distribution
shape and scene depth range, DANet sharply alleviates the distribution drift,
and achieves a comparable performance with prior heavy-weight methods, but uses
only 1% floating-point operations per second (FLOPs) of them. The experiments
on two datasets, namely the widely used NYUDv2 dataset and the more challenging
iBims-1 dataset, demonstrate the effectiveness of our method. The source code
is available at https://github.com/YiLiM1/DANet.
- Abstract(参考訳): 単眼深度推定の性能は一般にパラメータの量と計算コストに依存する。
軽量ネットワークとヘビーウェイトネットワークの間には高い精度のコントラストがあり、現実世界での応用を制限している。
本稿では,これら間の精度のコントラストの大部分を,分布分布の差としてモデル化し,これを「分布ドリフト」と呼ぶ。
この目的のために,分散アライメントネットワーク(DANet)を提案する。
まず,複数スケールの領域間相互作用を捉えるために,ピラミッドシーントランスフォーマー(PST)モジュールを設計する。
DANetは2つの領域の深さ特徴の差を知覚することにより、分布の形状を地平に合わせる合理的なシーン構造を予測する傾向にある。
そこで本稿では,グローバルなシーン深度の監視を実現するために,LGO(Local-global Optimization)方式を提案する。
深度分布形状とシーン深度範囲のアライメントにより、DANetは分布のドリフトを著しく軽減し、従来の重み付け手法と同等の性能を発揮するが、1秒あたりの浮動小数点演算(FLOP)はわずか1%である。
2つのデータセット、すなわち広く使われているnyudv2データセットとより挑戦的なibims-1データセットの実験は、本手法の有効性を示している。
ソースコードはhttps://github.com/YiLiM1/DANetで入手できる。
関連論文リスト
- Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - One scalar is all you need -- absolute depth estimation using monocular
self-supervision [59.45414406974091]
自己教師付き単眼深度推定器は、画像のみを使用し、地中深度データがない新しいシーンで訓練または微調整することができる。
これらの推定器は、深度スケールの固有の曖昧さに悩まされ、適用性が著しく制限される。
本稿では,地中深度で収集した既存のソースデータセットから,自己監督を用いて訓練した深度推定器へ深度スケールを転送する手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T07:07:34Z) - Non-parametric Depth Distribution Modelling based Depth Inference for
Multi-view Stereo [43.415242967722804]
最近のコストボリュームピラミッドに基づくディープニューラルネットワークは、多視点ステレオからの深度推論に高解像度の画像を効率的に活用する可能性を解き放った。
一般に、これらのアプローチは各ピクセルの深さが一様分布に従うと仮定する。
本研究では,非パラメトリック深度分布モデルを用いて,一様および多モード分布の画素を扱うコストボリュームを構築することを提案する。
論文 参考訳(メタデータ) (2022-05-08T05:13:04Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Boundary-induced and scene-aggregated network for monocular depth
prediction [20.358133522462513]
本稿では,1枚のRGB画像の深度を推定するための境界誘導・Scene-aggregated Network (BS-Net)を提案する。
NYUD v2データセットとxffthe iBims-1データセットに関するいくつかの実験結果は、提案手法の最先端性能を示している。
論文 参考訳(メタデータ) (2021-02-26T01:43:17Z) - HR-Depth: High Resolution Self-Supervised Monocular Depth Estimation [14.81943833870932]
本稿では,2つの効果的な戦略を持つ改良DepthNet,HR-Depthを提案する。
resnet-18をエンコーダとして使用すると、hr-depthは、高解像度と低解像度の両方で最小パラマエターを持つ、以前の最先端(sota)メソッドをすべて上回る。
論文 参考訳(メタデータ) (2020-12-14T09:15:15Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。