論文の概要: NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth
Estimation
- arxiv url: http://arxiv.org/abs/2203.01502v1
- Date: Thu, 3 Mar 2022 03:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-05 07:22:41.536294
- Title: NeW CRFs: Neural Window Fully-connected CRFs for Monocular Depth
Estimation
- Title(参考訳): NeW CRF:単眼深度推定のためのニューラルウィンドウ完全連結CRF
- Authors: Weihao Yuan, Xiaodong Gu, Zuozhuo Dai, Siyu Zhu, Ping Tan
- Abstract要約: 単一の画像から正確な深度を推定することは、本質的に曖昧で不適切であるため難しい。
CRFの最適化の道をたどって、完全に接続されたCRFの可能性を活用します。
提案手法は,KITTIとNYUv2の両方のデータセットにおいて,すべてのメトリクスのパフォーマンスを著しく向上させる。
- 参考スコア(独自算出の注目度): 42.062788492398674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating the accurate depth from a single image is challenging since it is
inherently ambiguous and ill-posed. While recent works design increasingly
complicated and powerful networks to directly regress the depth map, we take
the path of CRFs optimization. Due to the expensive computation, CRFs are
usually performed between neighborhoods rather than the whole graph. To
leverage the potential of fully-connected CRFs, we split the input into windows
and perform the FC-CRFs optimization within each window, which reduces the
computation complexity and makes FC-CRFs feasible. To better capture the
relationships between nodes in the graph, we exploit the multi-head attention
mechanism to compute a multi-head potential function, which is fed to the
networks to output an optimized depth map. Then we build a bottom-up-top-down
structure, where this neural window FC-CRFs module serves as the decoder, and a
vision transformer serves as the encoder. The experiments demonstrate that our
method significantly improves the performance across all metrics on both the
KITTI and NYUv2 datasets, compared to previous methods. Furthermore, the
proposed method can be directly applied to panorama images and outperforms all
previous panorama methods on the MatterPort3D dataset. The source code of our
method will be made public.
- Abstract(参考訳): 単一の画像から正確な深度を推定することは、本質的に曖昧で不適切であるため難しい。
近年,深度マップを直接回帰するネットワークの設計がますます複雑化しており,CRF最適化の道をたどっている。
高価な計算のため、CRFは通常グラフ全体ではなく地区間で実行される。
完全接続型CRFの可能性を生かし、入力をウィンドウに分割し、各ウィンドウ内でFC-CRF最適化を行い、計算複雑性を低減し、FC-CRFの実現を可能にする。
グラフ内のノード間の関係をよりよく把握するために、マルチヘッドアテンション機構を利用して、ネットワークに供給されたマルチヘッドポテンシャル関数を計算し、最適化された深度マップを出力する。
次にボトムアップトップダウン構造を構築し,このニューラルウインドウfc-crfsモジュールがデコーダとして,視覚トランスフォーマがエンコーダとして機能する。
実験により,提案手法は従来の手法と比較して,KITTIおよびNYUv2データセットのすべての指標における性能を著しく向上することが示された。
さらに,提案手法はパノラマ画像に直接適用でき,matterport3dデータセット上の従来のパノラマ手法を上回ることができる。
私たちのメソッドのソースコードを公開します。
関連論文リスト
- LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Regularized Frank-Wolfe for Dense CRFs: Generalizing Mean Field and
Beyond [19.544213396776268]
我々は,高次条件場に対する汎用的で効果的なCNNベースライン推論である正規化Frank-Wolfeを導入する。
新しいアルゴリズム、新しいアルゴリズム、新しいデータセット、強力なニューラルネットワークの大幅な改善が示されています。
論文 参考訳(メタデータ) (2021-10-27T20:44:47Z) - Continuous Conditional Random Field Convolution for Point Cloud
Segmentation [12.154944192318936]
条件付きランダムフィールド(CRF)は通常、ラベルの一貫性を促進するためにラベル空間の離散モデルとして定式化される。
本稿では,CRFを特徴空間に再検討し,特徴構造をよく捉えることができる点雲セグメンテーションを提案する。
各種クラウドベンチマーク実験により,提案手法の有効性とロバスト性を示した。
論文 参考訳(メタデータ) (2021-10-12T15:35:38Z) - Single Image Depth Estimation using Wavelet Decomposition [37.486778463181]
単眼画像から精度の高い深度を高効率で予測する新しい手法を提案する。
この最適効率はウェーブレット分解を利用して達成される。
我々はスパースウェーブレット係数を予測して高忠実度深度マップを再構築できることを実証した。
論文 参考訳(メタデータ) (2021-06-03T17:42:25Z) - Random Features for the Neural Tangent Kernel [57.132634274795066]
完全接続型ReLUネットワークのニューラルタンジェントカーネル(NTK)の効率的な特徴マップ構築を提案する。
得られた特徴の次元は、理論と実践の両方で比較誤差境界を達成するために、他のベースライン特徴マップ構造よりもはるかに小さいことを示しています。
論文 参考訳(メタデータ) (2021-04-03T09:08:12Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。