論文の概要: ROIFormer: Semantic-Aware Region of Interest Transformer for Efficient
Self-Supervised Monocular Depth Estimation
- arxiv url: http://arxiv.org/abs/2212.05729v1
- Date: Mon, 12 Dec 2022 06:38:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 16:46:37.188096
- Title: ROIFormer: Semantic-Aware Region of Interest Transformer for Efficient
Self-Supervised Monocular Depth Estimation
- Title(参考訳): roiformer: 自己教師付き単眼深度推定のための意味認識領域変換器
- Authors: Daitao Xing, Jinglin Shen, Chiuman Ho and Anthony Tzes
- Abstract要約: 幾何認識表現強調のための効率的な局所適応アダプティブアテンション手法を提案する。
意味情報からの幾何学的手がかりを利用して局所適応的境界ボックスを学習し、教師なし特徴集合を導出する。
提案手法は, 自己教師型単分子深度推定タスクにおける新しい最先端技術を確立する。
- 参考スコア(独自算出の注目度): 6.923035780685481
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The exploration of mutual-benefit cross-domains has shown great potential
toward accurate self-supervised depth estimation. In this work, we revisit
feature fusion between depth and semantic information and propose an efficient
local adaptive attention method for geometric aware representation enhancement.
Instead of building global connections or deforming attention across the
feature space without restraint, we bound the spatial interaction within a
learnable region of interest. In particular, we leverage geometric cues from
semantic information to learn local adaptive bounding boxes to guide
unsupervised feature aggregation. The local areas preclude most irrelevant
reference points from attention space, yielding more selective feature learning
and faster convergence. We naturally extend the paradigm into a multi-head and
hierarchic way to enable the information distillation in different semantic
levels and improve the feature discriminative ability for fine-grained depth
estimation. Extensive experiments on the KITTI dataset show that our proposed
method establishes a new state-of-the-art in self-supervised monocular depth
estimation task, demonstrating the effectiveness of our approach over former
Transformer variants.
- Abstract(参考訳): 相互に適合するクロスドメインの探索は、正確な自己監督深度推定への大きな可能性を示している。
本研究では,深度情報と意味情報の融合について再検討し,幾何認識表現強調のための効率的な局所適応注意法を提案する。
グローバルな接続を構築したり、制約なく特徴空間に注意を向ける代わりに、学習可能な関心領域内に空間的相互作用を縛り付ける。
特に,意味情報からの幾何学的手がかりを利用して局所適応境界ボックスを学習し,教師なし特徴集約を導く。
局所領域は注意空間から最も無関係な参照ポイントを妨げ、より選択的な特徴学習とより速い収束をもたらす。
我々は自然にパラダイムを多面的・階層的な方法で拡張し、異なる意味レベルでの情報蒸留を可能にし、詳細な深度推定のための特徴識別能力を向上させる。
KITTIデータセットの大規模な実験により,提案手法は自己教師付き単眼深度推定タスクにおける新しい最先端技術を確立し,従来のトランスフォーマーモデルに対するアプローチの有効性を示す。
関連論文リスト
- Unified Domain Adaptive Semantic Segmentation [96.74199626935294]
Unsupervised Adaptive Domain Semantic (UDA-SS)は、ラベル付きソースドメインからラベル付きターゲットドメインに監督を移すことを目的としている。
本稿では,特徴量と特徴量との相違に対処するQuad-directional Mixup(QuadMix)法を提案する。
提案手法は,4つの挑戦的UDA-SSベンチマークにおいて,最先端の成果を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2023-11-22T09:18:49Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Multi-Frame Self-Supervised Depth with Transformers [33.00363651105475]
本稿では,コストボリューム生成のためのトランスフォーマーアーキテクチャを提案する。
深度分布型エピポーラサンプリングを用いて、マッチング候補を選択する。
私たちは、一連の自己と横断的なレイヤを通じて予測を洗練します。
論文 参考訳(メタデータ) (2022-04-15T19:04:57Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Point-Level Region Contrast for Object Detection Pre-Training [147.47349344401806]
本稿では,物体検出作業のための自己教師付き事前学習手法である点レベル領域コントラストを提案する。
提案手法は,異なる領域から個々の点対を直接抽出することにより,コントラスト学習を行う。
領域ごとの集約表現と比較すると,入力領域の品質の変化に対して,我々のアプローチはより堅牢である。
論文 参考訳(メタデータ) (2022-02-09T18:56:41Z) - Fine-grained Semantics-aware Representation Enhancement for
Self-supervised Monocular Depth Estimation [16.092527463250708]
自己教師付き単分子深度推定を改善するための新しいアイデアを提案する。
我々は、幾何学的表現強化に暗黙的な意味知識を取り入れることに注力する。
提案手法をKITTIデータセット上で評価し,提案手法が最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-08-19T17:50:51Z) - Oriented RepPoints for Aerial Object Detection [10.818838437018682]
本稿では,オブジェクト指向RepPointsという,空中物体検出のための新しい手法を提案する。
具体的には、任意指向オブジェクトの幾何学的および空間的情報を取得するために、適応点の集合を用いることを提案する。
教師付き学習を容易にするために,適応点を配向境界ボックスに明示的にマッピングする指向変換関数を提案する。
論文 参考訳(メタデータ) (2021-05-24T06:18:23Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - Domain Adaptive Semantic Segmentation with Self-Supervised Depth
Estimation [84.34227665232281]
セマンティックセグメンテーションのためのドメイン適応は、ソースとターゲットドメイン間の分散シフトの存在下でモデルのパフォーマンスを向上させることを目的とする。
ドメイン間のギャップを埋めるために、両ドメインで利用可能な自己教師付き深さ推定からのガイダンスを活用します。
提案手法のベンチマークタスクSYNTHIA-to-CityscapesとGTA-to-Cityscapesの有効性を実証する。
論文 参考訳(メタデータ) (2021-04-28T07:47:36Z) - Semantic-Guided Representation Enhancement for Self-supervised Monocular
Trained Depth Estimation [39.845944724079814]
自己教師付き深度推定は,画像列のみを入力として,高品質の深度マップを作成する上で大きな効果を示した。
しかし、その性能は通常、限界深度表現能力のために境界領域や細い構造を持つ物体を推定する際に低下する。
局所的および大域的な深度特徴表現を促進する意味誘導深度表現拡張法を提案する。
論文 参考訳(メタデータ) (2020-12-15T02:24:57Z) - Spatial Attention Pyramid Network for Unsupervised Domain Adaptation [66.75008386980869]
教師なし領域適応は様々なコンピュータビジョンタスクにおいて重要である。
教師なし領域適応のための新しい空間注意ピラミッドネットワークを設計する。
我々の手法は最先端の手法に対して大きなマージンで好適に機能する。
論文 参考訳(メタデータ) (2020-03-29T09:03:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。