論文の概要: Depth-Relative Self Attention for Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2304.12849v1
- Date: Tue, 25 Apr 2023 14:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 20:24:16.631826
- Title: Depth-Relative Self Attention for Monocular Depth Estimation
- Title(参考訳): 単眼深度推定のための深さ関係自己注意
- Authors: Kyuhong Shim, Jiyoung Kim, Gusang Lee, Byonghyo Shim
- Abstract要約: ディープニューラルネットワークは、RGB情報から抽出されたサイズ、日陰、テクスチャなど、さまざまな視覚的ヒントに依存している。
本稿では,相対深度を自己注意のガイダンスとして用いたRelative Depth Transformer (RED-T) という新しい深度推定モデルを提案する。
提案モデルでは, 単分子深度推定ベンチマークにおいて, 競合する結果が得られ, RGB情報に偏りが小さいことを示す。
- 参考スコア(独自算出の注目度): 23.174459018407003
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Monocular depth estimation is very challenging because clues to the exact
depth are incomplete in a single RGB image. To overcome the limitation, deep
neural networks rely on various visual hints such as size, shade, and texture
extracted from RGB information. However, we observe that if such hints are
overly exploited, the network can be biased on RGB information without
considering the comprehensive view. We propose a novel depth estimation model
named RElative Depth Transformer (RED-T) that uses relative depth as guidance
in self-attention. Specifically, the model assigns high attention weights to
pixels of close depth and low attention weights to pixels of distant depth. As
a result, the features of similar depth can become more likely to each other
and thus less prone to misused visual hints. We show that the proposed model
achieves competitive results in monocular depth estimation benchmarks and is
less biased to RGB information. In addition, we propose a novel monocular depth
estimation benchmark that limits the observable depth range during training in
order to evaluate the robustness of the model for unseen depths.
- Abstract(参考訳): 単一のRGB画像において、正確な深さの手がかりが不完全であるため、単眼深度推定は非常に難しい。
この制限を克服するために、ディープニューラルネットワークは、RGB情報から抽出されたサイズ、日陰、テクスチャなど、さまざまな視覚的ヒントに依存している。
しかし,そのようなヒントを過度に活用すると,網羅的な視点を考慮せずにRGB情報に偏りが生じる。
本稿では,相対深度を自己注意のガイダンスとして用いたRelative Depth Transformer (RED-T) という新しい深度推定モデルを提案する。
特に、モデルでは、高い注意重みを近深さの画素に、低い注意重みを遠深のピクセルに割り当てる。
その結果、類似した深度の特徴は互いにより近づきやすくなり、視覚的ヒントが誤用されることが少なくなる。
提案モデルでは, 単分子深度推定ベンチマークにおいて競合結果が得られ, RGB情報に偏りが小さいことを示す。
さらに,学習中の観測可能な深度範囲を制限し,未知の深度に対するモデルのロバスト性を評価するための新しい単眼深度推定ベンチマークを提案する。
関連論文リスト
- Self-Supervised Learning based Depth Estimation from Monocular Images [0.0]
単色深度推定の目標は、入力として2次元単色RGB画像が与えられた深度マップを予測することである。
我々は、トレーニング中に固有のカメラパラメータを実行し、我々のモデルをさらに一般化するために天気増悪を適用することを計画している。
論文 参考訳(メタデータ) (2023-04-14T07:14:08Z) - RGB-D Grasp Detection via Depth Guided Learning with Cross-modal
Attention [14.790193023912973]
本稿では,DGCAN(Depth Guided Cross-modal Attention Network)を用いた新しい学習手法を提案する。
深度チャネルに記録された幾何情報をよりよく活用するために、全6次元矩形表現を専用に考慮して採用する。
余分な掴み深度の予測は特徴学習を大幅に強化し、より正確な結果をもたらす。
論文 参考訳(メタデータ) (2023-02-28T02:41:27Z) - Monocular Depth Estimation Using Cues Inspired by Biological Vision
Systems [22.539300644593936]
単眼深度推定(MDE)は、シーンのRGB画像を同じカメラビューから画素幅の深度マップに変換することを目的としている。
MDEタスクの一部は、画像内のどの視覚的手がかりを深度推定に使用できるか、どのように使うかを学ぶことである。
モデルに視覚的キュー情報を明示的に注入することは深度推定に有用であることを示す。
論文 参考訳(メタデータ) (2022-04-21T19:42:36Z) - RGB-Depth Fusion GAN for Indoor Depth Completion [29.938869342958125]
本稿では,RGBと不完全深度画像のペアを入力として,高密度で完成度の高い深度マップを推定する,新しい2分岐エンドツーエンド融合ネットワークを設計する。
あるブランチでは、RGB画像を微細なテクスチャ化深度マップに転送するRGB深度融合GANを提案する。
他方のブランチでは、W-AdaINという名前の適応核融合モジュールを採用し、2つのブランチにまたがる特徴を伝播させます。
論文 参考訳(メタデータ) (2022-03-21T10:26:38Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Weakly-Supervised Monocular Depth Estimationwith Resolution-Mismatched
Data [73.9872931307401]
単眼深度推定ネットワークをトレーニングするための弱教師付きフレームワークを提案する。
提案フレームワークは, 共有重量単分子深度推定ネットワークと蒸留用深度再構成ネットワークから構成される。
実験結果から,本手法は教師なし・半教師付き学習ベース方式よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-09-23T18:04:12Z) - Sparse Auxiliary Networks for Unified Monocular Depth Prediction and
Completion [56.85837052421469]
コスト効率のよいセンサで得られたデータからシーン形状を推定することは、ロボットや自動運転車にとって鍵となる。
本稿では,1枚のRGB画像から,低コストな能動深度センサによるスパース計測により,深度を推定する問題について検討する。
sparse networks (sans) は,深さ予測と完了という2つのタスクをmonodepthネットワークで実行可能にする,新しいモジュールである。
論文 参考訳(メタデータ) (2021-03-30T21:22:26Z) - Efficient Depth Completion Using Learned Bases [94.0808155168311]
深度補正のための新しい大域的幾何制約を提案する。
低次元部分空間上によく配置される深さ写像を仮定することにより、高密度深度写像は全解像度の主深度基底の重み付け和で近似することができる。
論文 参考訳(メタデータ) (2020-12-02T11:57:37Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z) - Single Image Depth Estimation Trained via Depth from Defocus Cues [105.67073923825842]
単一のRGB画像から深度を推定することはコンピュータビジョンの基本的な課題である。
この作業では、異なる視点ではなく、フォーカスキューからの奥行きに依存しています。
我々は,KITTIとMake3Dデータセットの教師あり手法と同等な結果を提示し,教師なし学習手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-01-14T20:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。