論文の概要: Depth Estimation using Weighted-loss and Transfer Learning
- arxiv url: http://arxiv.org/abs/2404.07686v1
- Date: Thu, 11 Apr 2024 12:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-12 14:09:30.827677
- Title: Depth Estimation using Weighted-loss and Transfer Learning
- Title(参考訳): 重み付きロスと伝達学習を用いた深さ推定
- Authors: Muhammad Adeel Hafeez, Michael G. Madden, Ganesh Sistu, Ihsan Ullah,
- Abstract要約: 転送学習と最適化された損失関数を用いた深度推定精度の向上のための簡易かつ適応的なアプローチを提案する。
本研究では,移動学習と最適損失関数を用いた深度推定精度向上のための簡易かつ適応的な手法を提案する。
EfficientNetが最も成功したアーキテクチャである。
- 参考スコア(独自算出の注目度): 2.428301619698667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Depth estimation from 2D images is a common computer vision task that has applications in many fields including autonomous vehicles, scene understanding and robotics. The accuracy of a supervised depth estimation method mainly relies on the chosen loss function, the model architecture, quality of data and performance metrics. In this study, we propose a simplified and adaptable approach to improve depth estimation accuracy using transfer learning and an optimized loss function. The optimized loss function is a combination of weighted losses to which enhance robustness and generalization: Mean Absolute Error (MAE), Edge Loss and Structural Similarity Index (SSIM). We use a grid search and a random search method to find optimized weights for the losses, which leads to an improved model. We explore multiple encoder-decoder-based models including DenseNet121, DenseNet169, DenseNet201, and EfficientNet for the supervised depth estimation model on NYU Depth Dataset v2. We observe that the EfficientNet model, pre-trained on ImageNet for classification when used as an encoder, with a simple upsampling decoder, gives the best results in terms of RSME, REL and log10: 0.386, 0.113 and 0.049, respectively. We also perform a qualitative analysis which illustrates that our model produces depth maps that closely resemble ground truth, even in cases where the ground truth is flawed. The results indicate significant improvements in accuracy and robustness, with EfficientNet being the most successful architecture.
- Abstract(参考訳): 2次元画像からの深さ推定は、自律走行車、シーン理解、ロボット工学を含む多くの分野に適用可能な、一般的なコンピュータビジョンタスクである。
教師付き深度推定法の精度は、主に選択された損失関数、モデルアーキテクチャ、データの品質、パフォーマンス指標に依存する。
本研究では,移動学習と最適損失関数を用いた深度推定精度向上のための簡易かつ適応的な手法を提案する。
最適化された損失関数は、強靭性と一般化を高める重み付き損失の組み合わせである:平均絶対誤差(MAE)、エッジ損失、構造類似度指数(SSIM)。
グリッドサーチとランダムサーチを用いて、損失に対して最適化された重みを求める。
DenseNet121,DenseNet169,DenseNet201,EfficientNetなど,複数のエンコーダデコーダベースのモデルについて,NYU Depth Dataset v2の教師付き深度推定モデルについて検討する。
エンコーダとして使用する場合,ImageNetで事前学習したEfficientNetモデルは,RSME, REL, log10, 0.386, 0.113, 0.049でそれぞれ最適な結果が得られる。
また,本モデルが基底真理によく似た深度マップを生成することを示す定性的解析を行った。
EfficientNetが最も成功したアーキテクチャである。
関連論文リスト
- Towards Robust Out-of-Distribution Generalization: Data Augmentation and Neural Architecture Search Approaches [4.577842191730992]
我々は、ディープラーニングのための堅牢なOoD一般化への道を探る。
まず,認識に必須でない特徴間の素早い相関を解消するための,新しい効果的なアプローチを提案する。
次に,OoDシナリオにおけるニューラルアーキテクチャ探索の強化問題について検討する。
論文 参考訳(メタデータ) (2024-10-25T20:50:32Z) - Depth Estimation From Monocular Images With Enhanced Encoder-Decoder Architecture [0.0]
本稿では,エンコーダデコーダアーキテクチャを用いた新しい深層学習手法を提案する。
Inception-ResNet-v2モデルはエンコーダとして利用される。
NYU Depth V2データセットの実験結果は、我々のモデルが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-15T13:46:19Z) - Depth Estimation Algorithm Based on Transformer-Encoder and Feature
Fusion [3.490784807576072]
この研究は、自然言語処理の成功で有名なトランスフォーマーモデルを採用し、深度推定タスクのための視覚データにおける複雑な空間関係をキャプチャする。
この研究の重要な革新は、構造類似度指標尺度(SSIM)と平均正方形誤差(MSE)を組み合わせた複合損失関数の統合である。
本研究は,MSEに基づく損失によく見られる過度な平滑化の課題に対処し,精度だけでなく,入力画像との整合性も維持する深度マップの予測能力を向上させる。
論文 参考訳(メタデータ) (2024-03-03T02:10:00Z) - Enhancing Digital Hologram Reconstruction Using Reverse-Attention Loss for Untrained Physics-Driven Deep Learning Models with Uncertain Distance [10.788482076164314]
未学習のディープラーニング手法におけるオートフォーカス問題に対処するための先駆的なアプローチを提案する。
提案手法は,競合する手法に対する大幅な再構成性能を示す。
例えば、PSNRでは1dB以下であり、SSIMでは0.002以下である。
論文 参考訳(メタデータ) (2024-01-11T01:30:46Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - SmoothNets: Optimizing CNN architecture design for differentially
private deep learning [69.10072367807095]
DPSGDは、サンプルごとの勾配の切り抜きとノイズ付けを必要とする。
これにより、非プライベートトレーニングと比較してモデルユーティリティが削減される。
SmoothNetと呼ばれる新しいモデルアーキテクチャを蒸留し,DP-SGDトレーニングの課題に対するロバスト性の向上を特徴とした。
論文 参考訳(メタデータ) (2022-05-09T07:51:54Z) - Sparse Depth Completion with Semantic Mesh Deformation Optimization [4.03103540543081]
本稿では、RGB画像とスパース深度サンプルを入力とし、完全な深度マップを予測し、最適化後のニューラルネットワークを提案する。
評価結果は,屋内および屋外両方のデータセットにおいて,既存の成果を一貫して上回る結果となった。
論文 参考訳(メタデータ) (2021-12-10T13:01:06Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z) - Calibrating Deep Neural Networks using Focal Loss [77.92765139898906]
ミススキャリブレーション(Miscalibration)は、モデルの信頼性と正しさのミスマッチである。
焦点損失は、既に十分に校正されたモデルを学ぶことができることを示す。
ほぼすべてのケースにおいて精度を損なうことなく,最先端のキャリブレーションを達成できることを示す。
論文 参考訳(メタデータ) (2020-02-21T17:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。