論文の概要: Transformers in Self-Supervised Monocular Depth Estimation with Unknown
Camera Intrinsics
- arxiv url: http://arxiv.org/abs/2202.03131v1
- Date: Mon, 7 Feb 2022 13:17:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-02-08 14:08:58.562547
- Title: Transformers in Self-Supervised Monocular Depth Estimation with Unknown
Camera Intrinsics
- Title(参考訳): 未知カメラを用いた自己監督単眼深度推定における変圧器
- Authors: Arnav Varma, Hemang Chawla, Bahram Zonooz and Elahe Arani
- Abstract要約: 自己教師付き単眼深度推定は3次元シーン理解において重要な課題である。
自己教師付き単眼深度推定のための視覚変換器の適応方法を示す。
本研究は,トランスフォーマーをベースとしたアーキテクチャが,より堅牢で汎用性の高い性能を実現する方法を示す。
- 参考スコア(独自算出の注目度): 13.7258515433446
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The advent of autonomous driving and advanced driver assistance systems
necessitates continuous developments in computer vision for 3D scene
understanding. Self-supervised monocular depth estimation, a method for
pixel-wise distance estimation of objects from a single camera without the use
of ground truth labels, is an important task in 3D scene understanding.
However, existing methods for this task are limited to convolutional neural
network (CNN) architectures. In contrast with CNNs that use localized linear
operations and lose feature resolution across the layers, vision transformers
process at constant resolution with a global receptive field at every stage.
While recent works have compared transformers against their CNN counterparts
for tasks such as image classification, no study exists that investigates the
impact of using transformers for self-supervised monocular depth estimation.
Here, we first demonstrate how to adapt vision transformers for self-supervised
monocular depth estimation. Thereafter, we compare the transformer and
CNN-based architectures for their performance on KITTI depth prediction
benchmarks, as well as their robustness to natural corruptions and adversarial
attacks, including when the camera intrinsics are unknown. Our study
demonstrates how transformer-based architecture, though lower in run-time
efficiency, achieves comparable performance while being more robust and
generalizable.
- Abstract(参考訳): 自動運転と高度な運転支援システムの出現は、3次元シーン理解のためのコンピュータビジョンの継続的な発展を必要とする。
地上の真理ラベルを使わずに1台のカメラから物体の画素方向距離を推定する方法である自己監督単眼深度推定は3次元シーン理解において重要な課題である。
しかし,既存の手法は畳み込みニューラルネットワーク(CNN)アーキテクチャに限定されている。
ローカライズされた線形演算を使用し、レイヤ全体の特徴分解能を失うCNNとは対照的に、視覚トランスフォーマーは各ステージにおいてグローバルな受容場を持つ一定の解像度で処理する。
近年の研究では、画像分類などのタスクにおいてトランスフォーマーをCNNのタスクと比較しているが、自己教師付き単眼深度推定におけるトランスフォーマーの使用の影響を調査する研究は存在しない。
本稿では,まず視覚トランスフォーマーを自己教師付き単眼深度推定に適用する方法を示す。
その後,キティ深度予測ベンチマークにおけるトランスフォーマーとcnnベースのアーキテクチャと,カメラ内在性が不明な場合を含め,自然腐敗や敵対的攻撃に対するロバスト性を比較した。
本研究は、トランスフォーマーベースのアーキテクチャが、実行時の効率が低いにもかかわらず、より堅牢で一般化可能な性能を実現する方法を示す。
関連論文リスト
- Explainable Multi-Camera 3D Object Detection with Transformer-Based
Saliency Maps [0.0]
ビジョントランスフォーマー(ViT)は、3Dオブジェクト検出を含む様々なコンピュータビジョンタスクにおいて最先端の結果を得た。
エンドツーエンドの実装により、ViTの説明がより簡単になるため、安全クリティカルなアプリケーションにViTをデプロイする上での課題になる可能性がある。
本稿では,3次元物体検出に使用される複数のカメラ入力を持つDETRライクなViTのサリエンシマップを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:03:12Z) - Transformers in Unsupervised Structure-from-Motion [19.43053045216986]
トランスフォーマーはディープラーニングベースのコンピュータビジョンに革命をもたらし、パフォーマンスが向上し、自然の腐敗や敵の攻撃に対する堅牢性も向上した。
本研究では, モノクロ画素の深度, エゴ車両のトランスフォーメーションと回転, カメラの焦点長と主点を同時に予測する, 頑健なトランスフォーマーに基づくモノクロSfM法を提案する。
我々の研究は、トランスフォーマーベースのアーキテクチャは、自然な汚職や標的外攻撃に対してより堅牢でありながら、同等のパフォーマンスを実現していることを示している。
論文 参考訳(メタデータ) (2023-12-16T20:00:34Z) - OCTraN: 3D Occupancy Convolutional Transformer Network in Unstructured
Traffic Scenarios [0.0]
我々は2次元画像特徴を3次元占有特徴に変換するために反復アテンションを用いたトランスフォーマーアーキテクチャOCTraNを提案する。
また、LiDARの地上真実の必要性を排除し、任意のシーンにモデルを一般化するための自己教師型トレーニングパイプラインも開発している。
論文 参考訳(メタデータ) (2023-07-20T15:06:44Z) - Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular
Depth Estimation [33.018300966769516]
アートのほとんどの状態(SOTA)は、与えられた入力画像から不均一マップを予測するために、自己監督的かつ教師なしの領域で機能する。
我々のモデルは、2つの完全畳み込み深度エンコーダを用いて学習した画素ごとの局所情報と、トランスフォーマーエンコーダによって異なるスケールで学習されたグローバルな文脈情報とを融合させる。
これは、ほとんどの標準ベンチマークで最先端のパフォーマンスを達成するために、機能領域におけるマスク誘導マルチストリームの畳み込みを使用する。
論文 参考訳(メタデータ) (2022-11-20T20:00:21Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - PCLs: Geometry-aware Neural Reconstruction of 3D Pose with Perspective
Crop Layers [111.55817466296402]
我々は、カメラ幾何学に基づく関心領域の視点作物であるパースペクティブ・クロップ・レイヤ(PCL)を紹介する。
PCLは、エンドツーエンドのトレーニングと基礎となるニューラルネットワークのパラメータ数を残しながら、位置依存的な視点効果を決定論的に除去する。
PCLは、既存の3D再構成ネットワークを幾何学的に認識することで、容易に精度を向上させる手段を提供する。
論文 参考訳(メタデータ) (2020-11-27T08:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。