論文の概要: Consistent Depth Prediction under Various Illuminations using Dilated
Cross Attention
- arxiv url: http://arxiv.org/abs/2112.08006v1
- Date: Wed, 15 Dec 2021 10:02:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-16 21:20:14.461703
- Title: Consistent Depth Prediction under Various Illuminations using Dilated
Cross Attention
- Title(参考訳): ディイルトクロスアテンションを用いた様々な照明条件下での連続深さ予測
- Authors: Zitian Zhang, Chuhua Xian
- Abstract要約: 我々は,インターネット3D屋内シーンを用いて照明を手動で調整し,写真リアルなRGB写真とその対応する深度とBRDFマップを作成することを提案する。
異なる照明条件下での深度予測の整合性を維持するため,これらの拡張された特徴に横断的な注意を払っている。
提案手法は,Variデータセットの最先端手法との比較により評価され,実験で有意な改善が見られた。
- 参考スコア(独自算出の注目度): 1.332560004325655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we aim to solve the problem of consistent depth prediction in
complex scenes under various illumination conditions. The existing indoor
datasets based on RGB-D sensors or virtual rendering have two critical
limitations - sparse depth maps (NYU Depth V2) and non-realistic illumination
(SUN CG, SceneNet RGB-D). We propose to use internet 3D indoor scenes and
manually tune their illuminations to render photo-realistic RGB photos and
their corresponding depth and BRDF maps, obtaining a new indoor depth dataset
called Vari dataset. We propose a simple convolutional block named DCA by
applying depthwise separable dilated convolution on encoded features to process
global information and reduce parameters. We perform cross attention on these
dilated features to retain the consistency of depth prediction under different
illuminations. Our method is evaluated by comparing it with current
state-of-the-art methods on Vari dataset and a significant improvement is
observed in our experiments. We also conduct the ablation study, finetune our
model on NYU Depth V2 and also evaluate on real-world data to further validate
the effectiveness of our DCA block. The code, pre-trained weights and Vari
dataset are open-sourced.
- Abstract(参考訳): 本稿では,様々な照明条件下での複雑なシーンにおける一貫した深度予測の課題を解決することを目的とする。
既存のRGB-Dセンサーや仮想レンダリングに基づく屋内データセットには、スパース深度マップ(NYU深度V2)と非リアル照明(SUN CG, SceneNet RGB-D)という2つの重要な制限がある。
我々は,インターネット3D屋内シーンを用いて照明を手動で調整し,写真リアルなRGB写真とその対応する深度とBRDFマップを描画し,Variデータセットと呼ばれる新しい屋内深度データセットを取得することを提案する。
我々は,大域的な情報処理とパラメータの削減のために,深度的に分離可能な拡張畳み込みを符号化特徴に適用し,DCAという単純な畳み込みブロックを提案する。
異なる照度下での奥行き予測の一貫性を保つため,これらの拡張特徴を横断的に注目する。
本手法は,variデータセットの最先端手法と比較することで評価し,実験で有意な改善が得られた。
また,nyu深度v2のモデルを用いてアブレーション実験を行い,実世界データを評価し,dcaブロックの有効性をさらに検証した。
コード、事前トレーニングされた重み付け、Variデータセットはオープンソースである。
関連論文リスト
- LiOn-XA: Unsupervised Domain Adaptation via LiDAR-Only Cross-Modal Adversarial Training [61.26381389532653]
LiOn-XAは、LiDAR-Only Cross-Modal (X)学習と3D LiDARポイントクラウドセマンティックセマンティックセグメンテーションのためのAdversarial Trainingを組み合わせた、教師なしドメイン適応(UDA)アプローチである。
3つの現実的適応シナリオに関する実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-10-21T09:50:17Z) - Virtually Enriched NYU Depth V2 Dataset for Monocular Depth Estimation: Do We Need Artificial Augmentation? [61.234412062595155]
我々は、単眼深度推定のために設計された、ニューヨーク深度v2データセットの事実上拡張版であるANYUを紹介する。
仮想世界の完全な3Dシーンを利用して人工データセットを生成する、よく知られたアプローチとは対照的に、ANYUはバーチャルリアリティーオブジェクトのRGB-D表現を取り入れて作成された。
ANYUは,アーキテクチャがかなり異なるディープニューラルネットワークの単眼深度推定性能と一般化を改善したことを示す。
論文 参考訳(メタデータ) (2024-04-15T05:44:03Z) - Robust Depth Enhancement via Polarization Prompt Fusion Tuning [112.88371907047396]
様々な深度センサによる不正確な深度測定を改善するために偏光イメージングを利用するフレームワークを提案する。
まず、偏光データとセンサ深度マップから高密度で完全な深度マップを推定するために、ニューラルネットワークを訓練した学習ベースの戦略を採用する。
大規模データセット上で事前学習したRGBモデルを有効に活用するためのPPFT(Polarization Prompt Fusion Tuning)戦略を提案する。
論文 参考訳(メタデータ) (2024-04-05T17:55:33Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - RDFC-GAN: RGB-Depth Fusion CycleGAN for Indoor Depth Completion [28.634851863097953]
本稿では,RDFC-GANという2分岐のエンドツーエンド核融合ネットワークを提案する。
RGBと不完全な深度画像のペアを入力として、密集した深度マップを予測する。
第1分枝は、マンハッタン世界の仮定に固執することにより、エンコーダ・デコーダ構造を用いる。
もう一方のブランチでは、RGBイメージを詳細なテクスチャ化された深度マップに変換するのに適したRGB深度融合CycleGANが適用されている。
論文 参考訳(メタデータ) (2023-06-06T11:03:05Z) - On Robust Cross-View Consistency in Self-Supervised Monocular Depth Estimation [56.97699793236174]
本論文では,2種類の堅牢なクロスビュー整合性について検討する。
深度特徴空間と3次元ボクセル空間の時間的コヒーレンスを自己教師付き単眼深度推定に利用した。
いくつかのアウトドアベンチマークの実験結果から,本手法は最先端技術より優れていることが示された。
論文 参考訳(メタデータ) (2022-09-19T03:46:13Z) - Domain Randomization-Enhanced Depth Simulation and Restoration for
Perceiving and Grasping Specular and Transparent Objects [28.84776177634971]
深度復元のための強力なRGBD融合ネットワークSwinDRNetを提案する。
また,ドメインランダム化強化深度シミュレーション(DREDS)によるアクティブステレオ深度システムのシミュレーションも提案する。
我々の深度復元は下流タスクの性能を効果的に向上させることを示す。
論文 参考訳(メタデータ) (2022-08-07T19:17:16Z) - Joint Learning of Salient Object Detection, Depth Estimation and Contour
Extraction [91.43066633305662]
RGB-D Salient Object Detection (SOD) のための新しいマルチタスク・マルチモーダルフィルタトランス (MMFT) ネットワークを提案する。
具体的には、深度推定、健全な物体検出、輪郭推定の3つの相補的なタスクを統合する。マルチタスク機構は、タスク認識の特徴を補助タスクから学習するためのモデルを促進する。
実験の結果、複数のデータセット上での深度に基づくRGB-D SOD法をはるかに上回るだけでなく、高品質の深度マップと塩分濃度を同時に正確に予測できることがわかった。
論文 参考訳(メタデータ) (2022-03-09T17:20:18Z) - Sparse Depth Completion with Semantic Mesh Deformation Optimization [4.03103540543081]
本稿では、RGB画像とスパース深度サンプルを入力とし、完全な深度マップを予測し、最適化後のニューラルネットワークを提案する。
評価結果は,屋内および屋外両方のデータセットにおいて,既存の成果を一貫して上回る結果となった。
論文 参考訳(メタデータ) (2021-12-10T13:01:06Z) - RGB-D Local Implicit Function for Depth Completion of Transparent
Objects [43.238923881620494]
ロボット工学における認識方法の大部分は、RGB-Dカメラが提供する深度情報を必要とする。
標準的な3Dセンサーは、屈折と光の吸収により透明な物体の深さを捉えられない。
ノイズの多いRGB-D入力を考慮し,欠損深度を完備できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-01T17:00:04Z) - Accurate RGB-D Salient Object Detection via Collaborative Learning [101.82654054191443]
RGB-Dサリエンシ検出は、いくつかの課題シナリオにおいて素晴らしい能力を示している。
本稿では,エッジ,深度,塩分濃度をより効率的に活用する新しい協調学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T04:33:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。