論文の概要: Depth Estimation Algorithm Based on Transformer-Encoder and Feature
Fusion
- arxiv url: http://arxiv.org/abs/2403.01370v1
- Date: Sun, 3 Mar 2024 02:10:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:44:44.551706
- Title: Depth Estimation Algorithm Based on Transformer-Encoder and Feature
Fusion
- Title(参考訳): 変圧器エンコーダと特徴融合に基づく深さ推定アルゴリズム
- Authors: Linhan Xia, Junbang Liu, Tong Wu
- Abstract要約: この研究は、自然言語処理の成功で有名なトランスフォーマーモデルを採用し、深度推定タスクのための視覚データにおける複雑な空間関係をキャプチャする。
この研究の重要な革新は、構造類似度指標尺度(SSIM)と平均正方形誤差(MSE)を組み合わせた複合損失関数の統合である。
本研究は,MSEに基づく損失によく見られる過度な平滑化の課題に対処し,精度だけでなく,入力画像との整合性も維持する深度マップの予測能力を向上させる。
- 参考スコア(独自算出の注目度): 3.490784807576072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This research presents a novel depth estimation algorithm based on a
Transformer-encoder architecture, tailored for the NYU and KITTI Depth Dataset.
This research adopts a transformer model, initially renowned for its success in
natural language processing, to capture intricate spatial relationships in
visual data for depth estimation tasks. A significant innovation of the
research is the integration of a composite loss function that combines
Structural Similarity Index Measure (SSIM) with Mean Squared Error (MSE). This
combined loss function is designed to ensure the structural integrity of the
predicted depth maps relative to the original images (via SSIM) while
minimizing pixel-wise estimation errors (via MSE). This research approach
addresses the challenges of over-smoothing often seen in MSE-based losses and
enhances the model's ability to predict depth maps that are not only accurate
but also maintain structural coherence with the input images. Through rigorous
training and evaluation using the NYU Depth Dataset, the model demonstrates
superior performance, marking a significant advancement in single-image depth
estimation, particularly in complex indoor and traffic environments.
- Abstract(参考訳): 本研究では,NYUとKITTIの深度データセットに適したトランスフォーマーエンコーダアーキテクチャに基づく新しい深度推定アルゴリズムを提案する。
この研究は、自然言語処理の成功で有名なトランスフォーマーモデルを採用し、深度推定タスクのための視覚データにおける複雑な空間関係を捉える。
この研究の重要な革新は、構造類似度指標尺度(SSIM)と平均正方形誤差(MSE)を組み合わせた複合損失関数の統合である。
この複合損失関数は、(SSIMによる)原画像に対する予測深度マップの構造的整合性を確保するとともに、(MSEによる)画素推定誤差を最小限に抑えるように設計されている。
本研究は,MSEに基づく損失によく見られる過度な平滑化の課題に対処し,精度だけでなく,入力画像との整合性も維持する深度マップの予測能力を向上させる。
NYU深度データセットを用いた厳密なトレーニングと評価を通じて、このモデルは優れた性能を示し、特に複雑な屋内および交通環境において、単一画像深度推定の大幅な進歩を示す。
関連論文リスト
- Depth Estimation using Weighted-loss and Transfer Learning [2.428301619698667]
転送学習と最適化された損失関数を用いた深度推定精度の向上のための簡易かつ適応的なアプローチを提案する。
本研究では,移動学習と最適損失関数を用いた深度推定精度向上のための簡易かつ適応的な手法を提案する。
EfficientNetが最も成功したアーキテクチャである。
論文 参考訳(メタデータ) (2024-04-11T12:25:54Z) - Single Image Depth Prediction Made Better: A Multivariate Gaussian Take [163.14849753700682]
本稿では,画素ごとの深度を連続的にモデル化する手法を提案する。
提案手法の精度(MG)は,KITTI深度予測ベンチマークリーダーボードの上位に位置する。
論文 参考訳(メタデータ) (2023-03-31T16:01:03Z) - DeepRM: Deep Recurrent Matching for 6D Pose Refinement [77.34726150561087]
DeepRMは、6Dポーズ改善のための新しいリカレントネットワークアーキテクチャである。
アーキテクチャにはLSTMユニットが組み込まれ、各改善ステップを通じて情報を伝達する。
DeepRMは、2つの広く受け入れられている課題データセットで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-28T16:18:08Z) - End-to-end Learning for Joint Depth and Image Reconstruction from
Diffracted Rotation [10.896567381206715]
回折回転から深度を学習する新しいエンド・ツー・エンド学習手法を提案する。
提案手法は, 単分子深度推定のタスクにおいて既存の手法よりもはるかに少ない複雑なモデルと少ないトレーニングデータを必要とする。
論文 参考訳(メタデータ) (2022-04-14T16:14:37Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Robust Depth Completion with Uncertainty-Driven Loss Functions [60.9237639890582]
本研究では,不確実性による損失関数を導入し,深度補修の堅牢性を改善し,深度補修の不確実性に対処する。
提案手法は,KITTI深度評価ベンチマークでテストされ,MAE, IMAE, IRMSEの計測値を用いて最先端のロバスト性性能を達成した。
論文 参考訳(メタデータ) (2021-12-15T05:22:34Z) - Towards Comprehensive Monocular Depth Estimation: Multiple Heads Are
Better Than One [32.01675089157679]
本稿では,複数の弱い深度予測器の強度を統合し,包括的かつ正確な深度予測器を構築することを提案する。
具体的には、異なるTransformerベースおよび畳み込みニューラルネットワーク(CNN)ベースのアーキテクチャを用いて、複数のベース(弱)深さ予測器を構築する。
その結果、トランスフォーマー支援深度アンサンブル(TEDepth)と呼ばれるモデルでは、従来の最先端手法よりも優れた結果が得られる。
論文 参考訳(メタデータ) (2021-11-16T09:09:05Z) - Robust lEarned Shrinkage-Thresholding (REST): Robust unrolling for
sparse recover [87.28082715343896]
我々は、モデルミス特定を前進させるのに堅牢な逆問題を解決するためのディープニューラルネットワークについて検討する。
我々は,アルゴリズムの展開手法を根底にある回復問題のロバストバージョンに適用することにより,新しい堅牢なディープニューラルネットワークアーキテクチャを設計する。
提案したRESTネットワークは,圧縮センシングとレーダイメージングの両問題において,最先端のモデルベースおよびデータ駆動アルゴリズムを上回る性能を示す。
論文 参考訳(メタデータ) (2021-10-20T06:15:45Z) - Improved Point Transformation Methods For Self-Supervised Depth
Prediction [4.103701929881022]
ステレオ画像対やエゴモーション画像対が与えられた場合、単眼深度推定の教師なし学習の一般的な成功方法は、学習した深度予測による画像再構成の品質を測定することである。
本稿では,変換後の点を新しい視点に正しく効率的に処理するzブッフィングアルゴリズムを提案する。
このアルゴリズムは、機械学習ライブラリの典型的なオペレーターによって実装されているため、差別化を自動サポートした既存の教師なし深度学習フレームワークに組み込むことができる。
論文 参考訳(メタデータ) (2021-02-18T03:42:40Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。