論文の概要: Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular
Depth Estimation
- arxiv url: http://arxiv.org/abs/2211.11066v1
- Date: Sun, 20 Nov 2022 20:00:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:33:10.214733
- Title: Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular
Depth Estimation
- Title(参考訳): ハイブリッドトランスを用いた単眼深度推定のための特徴融合
- Authors: Snehal Singh Tomar, Maitreya Suin, A.N. Rajagopalan
- Abstract要約: アートのほとんどの状態(SOTA)は、与えられた入力画像から不均一マップを予測するために、自己監督的かつ教師なしの領域で機能する。
我々のモデルは、2つの完全畳み込み深度エンコーダを用いて学習した画素ごとの局所情報と、トランスフォーマーエンコーダによって異なるスケールで学習されたグローバルな文脈情報とを融合させる。
これは、ほとんどの標準ベンチマークで最先端のパフォーマンスを達成するために、機能領域におけるマスク誘導マルチストリームの畳み込みを使用する。
- 参考スコア(独自算出の注目度): 33.018300966769516
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With an unprecedented increase in the number of agents and systems that aim
to navigate the real world using visual cues and the rising impetus for 3D
Vision Models, the importance of depth estimation is hard to understate. While
supervised methods remain the gold standard in the domain, the copious amount
of paired stereo data required to train such models makes them impractical.
Most State of the Art (SOTA) works in the self-supervised and unsupervised
domain employ a ResNet-based encoder architecture to predict disparity maps
from a given input image which are eventually used alongside a camera pose
estimator to predict depth without direct supervision. The fully convolutional
nature of ResNets makes them susceptible to capturing per-pixel local
information only, which is suboptimal for depth prediction. Our key insight for
doing away with this bottleneck is to use Vision Transformers, which employ
self-attention to capture the global contextual information present in an input
image. Our model fuses per-pixel local information learned using two fully
convolutional depth encoders with global contextual information learned by a
transformer encoder at different scales. It does so using a mask-guided
multi-stream convolution in the feature space to achieve state-of-the-art
performance on most standard benchmarks.
- Abstract(参考訳): 視覚的手がかりを用いて現実世界を旅するエージェントやシステムの数が前代未聞の増加と3次元視覚モデルにおける増加傾向により,深度推定の重要性は低くなっている。
監視された手法はドメインの金本位制のままであるが、そのようなモデルの訓練に必要なペアステレオデータの多さは実用的ではない。
ほとんどの最先端技術(sota)は、自己監督および非監督領域で作業しており、resnetベースのエンコーダアーキテクチャを使用して、与えられた入力画像から不一致マップを予測している。
ResNetsの完全な畳み込みの性質は、深度予測に最適であるピクセルごとのローカル情報のみをキャプチャできる。
このボトルネックを解消するための重要な洞察は、視覚トランスフォーマーを使用することです。
本モデルでは,2つの完全畳み込み深さエンコーダを用いて学習したピクセル単位の局所情報を,トランスフォーマーエンコーダによって異なるスケールで学習した大域的文脈情報と融合する。
これは、ほとんどの標準ベンチマークで最先端のパフォーマンスを達成するために、機能空間におけるマスク誘導マルチストリーム畳み込みを使用する。
関連論文リスト
- Pixel-Aligned Multi-View Generation with Depth Guided Decoder [86.1813201212539]
画素レベルの画像・マルチビュー生成のための新しい手法を提案する。
従来の作業とは異なり、潜伏映像拡散モデルのVAEデコーダにマルチビュー画像にアテンション層を組み込む。
本モデルにより,マルチビュー画像間の画素アライメントが向上する。
論文 参考訳(メタデータ) (2024-08-26T04:56:41Z) - SwinDepth: Unsupervised Depth Estimation using Monocular Sequences via
Swin Transformer and Densely Cascaded Network [29.798579906253696]
教師付きトレーニングのための深層地下深度ラベルの取得は困難であり,単分子配列を用いた教師なし深度推定が有望な代替手段として出現する。
本稿では,画像特徴抽出器としてコンボリューションフリーのSwin Transformerを用い,局所的幾何学的特徴と大域的意味的特徴の両方を網羅して深度推定を行う。
また,Densely Cascaded Multi-scale Network (DCMNet)を提案する。
論文 参考訳(メタデータ) (2023-01-17T06:01:46Z) - Deep Convolutional Pooling Transformer for Deepfake Detection [54.10864860009834]
本研究では,局所的・グローバル的に決定的な画像特徴を取り入れた深部畳み込み変換器を提案する。
具体的には,抽出した特徴を充実させ,有効性を高めるために,畳み込みプーリングと再アテンションを適用した。
提案手法は、内部実験と相互データセット実験の両方において、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2022-09-12T15:05:41Z) - Depthformer : Multiscale Vision Transformer For Monocular Depth
Estimation With Local Global Information Fusion [6.491470878214977]
本稿では,屋内のNYUV2データセットと屋外のKITTIデータセットの深度推定のためのトランスフォーマーベースモデルをベンチマークする。
単眼深度推定のための新しいアテンションベースアーキテクチャDepthformerを提案する。
提案手法は,屋根平均正方形誤差(RMSE)でそれぞれ3.3%,3.3%改善する。
論文 参考訳(メタデータ) (2022-07-10T20:49:11Z) - Forecasting of depth and ego-motion with transformers and
self-supervision [0.0]
本稿では,深度とエゴ運動のエンドツーエンド自己監督予測の問題に対処する。
原画像の列が与えられた場合、教師付き自己測光損失を用いて、幾何と自我運動の両方を予測することを目的とする。
アーキテクチャは、畳み込みモジュールとトランスフォーマーモジュールの両方を使って設計されている。
論文 参考訳(メタデータ) (2022-06-15T10:14:11Z) - SurroundDepth: Entangling Surrounding Views for Self-Supervised
Multi-Camera Depth Estimation [101.55622133406446]
本研究では,複数の周囲からの情報を組み込んだSurroundDepth法を提案し,カメラ間の深度マップの予測を行う。
具体的には、周囲のすべてのビューを処理し、複数のビューから情報を効果的に融合するクロスビュー変換器を提案する。
実験において,本手法は,挑戦的なマルチカメラ深度推定データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-04-07T17:58:47Z) - Transformers in Self-Supervised Monocular Depth Estimation with Unknown
Camera Intrinsics [13.7258515433446]
自己教師付き単眼深度推定は3次元シーン理解において重要な課題である。
自己教師付き単眼深度推定のための視覚変換器の適応方法を示す。
本研究は,トランスフォーマーをベースとしたアーキテクチャが,より堅牢で汎用性の高い性能を実現する方法を示す。
論文 参考訳(メタデータ) (2022-02-07T13:17:29Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - PLADE-Net: Towards Pixel-Level Accuracy for Self-Supervised Single-View
Depth Estimation with Neural Positional Encoding and Distilled Matting Loss [49.66736599668501]
PLADE-Netと呼ばれる自己監視型単視点画素レベルの高精度深度推定ネットワークを提案する。
提案手法は,KITTIデータセットの$delta1$測定値の95%を超え,前例のない精度を示す。
論文 参考訳(メタデータ) (2021-03-12T15:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。