論文の概要: A Cross-Scale Hierarchical Transformer with Correspondence-Augmented
Attention for inferring Bird's-Eye-View Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2304.03650v2
- Date: Thu, 17 Aug 2023 08:33:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 00:17:33.196224
- Title: A Cross-Scale Hierarchical Transformer with Correspondence-Augmented
Attention for inferring Bird's-Eye-View Semantic Segmentation
- Title(参考訳): 鳥のEye-Viewセマンティックセマンティックセグメンテーションを推定するための対応強化型階層変換器
- Authors: Naiyu Fang, Lemiao Qiu, Shuyou Zhang, Zili Wang, Kerui Hu, Kang Wang
- Abstract要約: マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。
セマンティックセグメンテーション推論のための対応強化された注目度を持つ新しいクロススケール階層変換器を提案する。
マルチカメラビュー画像上でのBEVセマンティックセマンティックセグメンテーションの推測における最先端性能を有する。
- 参考スコア(独自算出の注目度): 13.013635162859108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As bird's-eye-view (BEV) semantic segmentation is simple-to-visualize and
easy-to-handle, it has been applied in autonomous driving to provide the
surrounding information to downstream tasks. Inferring BEV semantic
segmentation conditioned on multi-camera-view images is a popular scheme in the
community as cheap devices and real-time processing. The recent work
implemented this task by learning the content and position relationship via the
vision Transformer (ViT). However, the quadratic complexity of ViT confines the
relationship learning only in the latent layer, leaving the scale gap to impede
the representation of fine-grained objects. And their plain fusion method of
multi-view features does not conform to the information absorption intention in
representing BEV features. To tackle these issues, we propose a novel
cross-scale hierarchical Transformer with correspondence-augmented attention
for semantic segmentation inferring. Specifically, we devise a hierarchical
framework to refine the BEV feature representation, where the last size is only
half of the final segmentation. To save the computation increase caused by this
hierarchical framework, we exploit the cross-scale Transformer to learn feature
relationships in a reversed-aligning way, and leverage the residual connection
of BEV features to facilitate information transmission between scales. We
propose correspondence-augmented attention to distinguish conducive and
inconducive correspondences. It is implemented in a simple yet effective way,
amplifying attention scores before the Softmax operation, so that the
position-view-related and the position-view-disrelated attention scores are
highlighted and suppressed. Extensive experiments demonstrate that our method
has state-of-the-art performance in inferring BEV semantic segmentation
conditioned on multi-camera-view images.
- Abstract(参考訳): 鳥の目視(BEV)セマンティックセグメンテーションは、視覚的で扱いやすいため、下流のタスクに周辺情報を提供するために自律運転に応用されている。
マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティクスを推定することは、安価なデバイスとリアルタイム処理としてコミュニティで人気がある。
近年,視覚トランスフォーマ(vit)によるコンテンツと位置関係の学習により,この課題を実現した。
しかし、ViTの二次的な複雑さは、潜在層のみに関係学習を限定し、スケールギャップは微細な物体の表現を妨げる。
また,多視点特徴の平易な融合法は,BEV特徴を表す情報吸収意図に適合しない。
これらの課題に対処するために,セマンティックセグメンテーション推論のための対応強化した新しい階層変換器を提案する。
具体的には、最後のサイズが最終セグメンテーションのわずか半分であるBEV特徴表現を洗練するための階層的なフレームワークを考案する。
この階層的なフレームワークによって引き起こされる計算量の増大を抑えるため、クロススケールトランスフォーマーを用いて、逆向きに特徴関係を学習し、BEV特徴の残余接続を利用して、スケール間の情報伝達を容易にする。
本稿では,共起的・非共起的対応を区別するために,対応強化された注意を提案する。
ソフトマックス動作前の注意スコアを増幅して簡易かつ効果的に実施し、位置ビュー関連および位置ビュー関連注意スコアを強調抑制する。
広汎な実験により,マルチカメラビュー画像に条件付きBEVセマンティックセマンティックセマンティックセグメンテーションを推定する際の最先端性能が示された。
関連論文リスト
- OE-BevSeg: An Object Informed and Environment Aware Multimodal Framework for Bird's-eye-view Vehicle Semantic Segmentation [57.2213693781672]
Bird's-eye-view (BEV)セマンティックセマンティックセグメンテーションは自律運転システムにおいて重要である。
本稿では,BEVセグメンテーション性能を向上させるエンドツーエンドマルチモーダルフレームワークであるOE-BevSegを提案する。
提案手法は,車両セグメンテーションのためのnuScenesデータセットにおいて,最先端の成果を大きなマージンで達成する。
論文 参考訳(メタデータ) (2024-07-18T03:48:22Z) - Semi-Supervised Learning for Visual Bird's Eye View Semantic
Segmentation [16.3996408206659]
トレーニング中にラベルのない画像を活用することで性能を向上させるために,視覚的BEVセマンティックセマンティックセマンティックセマンティクスのための新しい半教師付きフレームワークを提案する。
次に、ラベルのないデータを完全に利用する一貫性損失を提案し、セマンティックな予測だけでなく、BEV機能にもモデルを制約する。
nuScenesとArgoverseデータセットの実験により、我々のフレームワークは予測精度を効果的に向上できることが示された。
論文 参考訳(メタデータ) (2023-08-28T12:23:36Z) - X-Align++: cross-modal cross-view alignment for Bird's-eye-view
segmentation [44.58686493878629]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Alignは、nuScenesとKITTI-360データセットの3つの絶対mIoUポイントにより、最先端を著しく上回る。
論文 参考訳(メタデータ) (2023-06-06T15:52:55Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - X-Align: Cross-Modal Cross-View Alignment for Bird's-Eye-View
Segmentation [44.95630790801856]
X-Alignは、BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダルおよびクロスビュー学習フレームワークである。
X-Align は nuScene 上で 3 つの絶対 mIoU 点によって最先端を著しく上回る。
論文 参考訳(メタデータ) (2022-10-13T06:42:46Z) - ViT-BEVSeg: A Hierarchical Transformer Network for Monocular
Birds-Eye-View Segmentation [2.70519393940262]
本研究では,バードアイビュー (BEV) マップを生成するために,視覚変換器 (ViT) をバックボーンアーキテクチャとして用いることを評価する。
我々のネットワークアーキテクチャであるViT-BEVSegは、入力画像のマルチスケール表現を生成するために標準視覚変換器を使用している。
我々は、最先端のアプローチと比較してかなり改善されたnuScenesデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-05-31T10:18:36Z) - GitNet: Geometric Prior-based Transformation for Birds-Eye-View
Segmentation [105.19949897812494]
Birds-eye-view (BEV) セマンティックセマンティックセグメンテーションは自動運転に不可欠である。
本稿では,GitNetという新しい2段階のGeometry Preside-based Transformationフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-16T06:46:45Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary
Camera Rigs [3.5728676902207988]
任意のカメラリグからのBEVセマンティックセマンティックセグメンテーションのための効果的なトランスフォーマーベース手法を提案する。
具体的には、まず任意のカメラから画像の特徴を共有バックボーンで符号化する。
BEV-to-imageビュー変換を行うために、効率的なマルチカメラ変形型アテンションユニットを設計する。
論文 参考訳(メタデータ) (2022-03-08T12:39:51Z) - Contrastive Transformation for Self-supervised Correspondence Learning [120.62547360463923]
野生のラベルのない動画を用いて,視覚的対応の自己監督学習について検討する。
本手法は,信頼性の高い対応推定のための映像内および映像間表現関連を同時に検討する。
我々のフレームワークは、近年の視覚的タスクにおける自己監督型対応手法よりも優れています。
論文 参考訳(メタデータ) (2020-12-09T14:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。