論文の概要: Monocular Depth Distribution Alignment with Low Computation
- arxiv url: http://arxiv.org/abs/2203.04538v1
- Date: Wed, 9 Mar 2022 06:18:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 14:23:25.569426
- Title: Monocular Depth Distribution Alignment with Low Computation
- Title(参考訳): 低演算による単眼深度分布アライメント
- Authors: Fei Sheng, Feng Xue, Yicong Chang, Wenteng Liang, Anlong Ming
- Abstract要約: 我々は、軽量ネットワークと重軽量ネットワークの精度コントラストの大部分をモデル化する。
DANetは2つの領域ごとに深度の特徴の違いを知覚することにより、合理的なシーン構造を予測する傾向にある。
DANetは、深さ分布形状とシーン深度範囲のアライメントにより、分布のドリフトを著しく軽減し、従来の重み付け手法と同等の性能を達成する。
- 参考スコア(独自算出の注目度): 15.05244258071472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of monocular depth estimation generally depends on the amount
of parameters and computational cost. It leads to a large accuracy contrast
between light-weight networks and heavy-weight networks, which limits their
application in the real world. In this paper, we model the majority of accuracy
contrast between them as the difference of depth distribution, which we call
"Distribution drift". To this end, a distribution alignment network (DANet) is
proposed. We firstly design a pyramid scene transformer (PST) module to capture
inter-region interaction in multiple scales. By perceiving the difference of
depth features between every two regions, DANet tends to predict a reasonable
scene structure, which fits the shape of distribution to ground truth. Then, we
propose a local-global optimization (LGO) scheme to realize the supervision of
global range of scene depth. Thanks to the alignment of depth distribution
shape and scene depth range, DANet sharply alleviates the distribution drift,
and achieves a comparable performance with prior heavy-weight methods, but uses
only 1% floating-point operations per second (FLOPs) of them. The experiments
on two datasets, namely the widely used NYUDv2 dataset and the more challenging
iBims-1 dataset, demonstrate the effectiveness of our method. The source code
is available at https://github.com/YiLiM1/DANet.
- Abstract(参考訳): 単眼深度推定の性能は一般にパラメータの量と計算コストに依存する。
軽量ネットワークとヘビーウェイトネットワークの間には高い精度のコントラストがあり、現実世界での応用を制限している。
本稿では,これら間の精度のコントラストの大部分を,分布分布の差としてモデル化し,これを「分布ドリフト」と呼ぶ。
この目的のために,分散アライメントネットワーク(DANet)を提案する。
まず,複数スケールの領域間相互作用を捉えるために,ピラミッドシーントランスフォーマー(PST)モジュールを設計する。
DANetは2つの領域の深さ特徴の差を知覚することにより、分布の形状を地平に合わせる合理的なシーン構造を予測する傾向にある。
そこで本稿では,グローバルなシーン深度の監視を実現するために,LGO(Local-global Optimization)方式を提案する。
深度分布形状とシーン深度範囲のアライメントにより、DANetは分布のドリフトを著しく軽減し、従来の重み付け手法と同等の性能を発揮するが、1秒あたりの浮動小数点演算(FLOP)はわずか1%である。
2つのデータセット、すなわち広く使われているnyudv2データセットとより挑戦的なibims-1データセットの実験は、本手法の有効性を示している。
ソースコードはhttps://github.com/YiLiM1/DANetで入手できる。
関連論文リスト
- Progressive Depth Decoupling and Modulating for Flexible Depth Completion [28.693100885012008]
画像誘導深度補正は、疎LiDARデータとRGB画像から高密度深度マップを生成することを目的としている。
近年の手法では,2つのサブタスク(深度離散化と確率予測)で分類問題として再検討し,有望な性能を示した。
本研究では, 深度範囲をビンに漸進的に分離し, マルチスケールの深度マップを適応的に生成するプログレッシブ・ディープ・デカップリング・変調ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-15T13:45:33Z) - Diffusion-based Data Augmentation for Object Counting Problems [62.63346162144445]
拡散モデルを用いて広範なトレーニングデータを生成するパイプラインを開発する。
拡散モデルを用いて位置ドットマップ上に条件付き画像を生成するのはこれが初めてである。
提案した拡散モデルにおけるカウント損失は,位置ドットマップと生成した群集画像との差を効果的に最小化する。
論文 参考訳(メタデータ) (2024-01-25T07:28:22Z) - Deep Neighbor Layer Aggregation for Lightweight Self-Supervised
Monocular Depth Estimation [1.6775954077761863]
文脈的特徴融合を用いた完全畳み込み深度推定ネットワークを提案する。
UNet++やHRNetと比較して、我々は、小さなターゲットや高速移動オブジェクトに関する情報を予約するために、高解像度で低解像度の機能を使用します。
本手法は精度を犠牲にすることなくパラメータを削減する。
論文 参考訳(メタデータ) (2023-09-17T13:40:15Z) - Monocular Visual-Inertial Depth Estimation [66.71452943981558]
単眼深度推定と視覚慣性計測を統合した視覚慣性深度推定パイプラインを提案する。
提案手法は, 疎度度に対する大域的スケールとシフトアライメントを行い, 続いて学習に基づく高密度アライメントを行う。
本研究では,TartanAir と VOID のデータセットを用いて,密集したスケールアライメントによるRMSE の最大30%の削減を観測した。
論文 参考訳(メタデータ) (2023-03-21T18:47:34Z) - Non-parametric Depth Distribution Modelling based Depth Inference for
Multi-view Stereo [43.415242967722804]
最近のコストボリュームピラミッドに基づくディープニューラルネットワークは、多視点ステレオからの深度推論に高解像度の画像を効率的に活用する可能性を解き放った。
一般に、これらのアプローチは各ピクセルの深さが一様分布に従うと仮定する。
本研究では,非パラメトリック深度分布モデルを用いて,一様および多モード分布の画素を扱うコストボリュームを構築することを提案する。
論文 参考訳(メタデータ) (2022-05-08T05:13:04Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Boundary-induced and scene-aggregated network for monocular depth
prediction [20.358133522462513]
本稿では,1枚のRGB画像の深度を推定するための境界誘導・Scene-aggregated Network (BS-Net)を提案する。
NYUD v2データセットとxffthe iBims-1データセットに関するいくつかの実験結果は、提案手法の最先端性能を示している。
論文 参考訳(メタデータ) (2021-02-26T01:43:17Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - A Single Stream Network for Robust and Real-time RGB-D Salient Object
Detection [89.88222217065858]
我々は、深度マップを用いて、RGBと深度の間の早期融合と中核融合を誘導する単一ストリームネットワークを設計する。
このモデルは、現在の最も軽量なモデルよりも55.5%軽く、32 FPSのリアルタイム速度で384倍の384ドルの画像を処理している。
論文 参考訳(メタデータ) (2020-07-14T04:40:14Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。