論文の概要: Cross-view Transformers for real-time Map-view Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2205.02833v1
- Date: Thu, 5 May 2022 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-06 15:14:55.521609
- Title: Cross-view Transformers for real-time Map-view Semantic Segmentation
- Title(参考訳): リアルタイムマップビューセマンティックセグメンテーションのためのクロスビュー変換器
- Authors: Brady Zhou, Philipp Kr\"ahenb\"uhl
- Abstract要約: クロスビュートランスは、複数のカメラからのマップビューセマンティックセグメンテーションの効率的なモデルである。
我々のアーキテクチャは、個々のカメラビューから標準地図ビュー表現へのマッピングを暗黙的に学習する。
提示されたアーキテクチャは、nuScenesデータセットの最先端で動作し、推論速度は4倍高速である。
- 参考スコア(独自算出の注目度): 4.314956204483074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present cross-view transformers, an efficient attention-based model for
map-view semantic segmentation from multiple cameras. Our architecture
implicitly learns a mapping from individual camera views into a canonical
map-view representation using a camera-aware cross-view attention mechanism.
Each camera uses positional embeddings that depend on its intrinsic and
extrinsic calibration. These embeddings allow a transformer to learn the
mapping across different views without ever explicitly modeling it
geometrically. The architecture consists of a convolutional image encoder for
each view and cross-view transformer layers to infer a map-view semantic
segmentation. Our model is simple, easily parallelizable, and runs in
real-time. The presented architecture performs at state-of-the-art on the
nuScenes dataset, with 4x faster inference speeds. Code is available at
https://github.com/bradyz/cross_view_transformers.
- Abstract(参考訳): 複数のカメラからのマップビューセマンティックセマンティックセグメンテーションの効率的な注意モデルであるクロスビュートランスフォーマーを提案する。
我々のアーキテクチャは、カメラを意識したクロスビューアテンション機構を用いて、個々のカメラビューから標準地図ビュー表現へのマッピングを暗黙的に学習する。
各カメラは、本質的および極端的なキャリブレーションに依存する位置埋め込みを使用する。
これらの埋め込みにより、トランスフォーマーは幾何学的に明確にモデル化することなく、異なるビューのマッピングを学ぶことができる。
アーキテクチャは、各ビュー用の畳み込み画像エンコーダと、マップビュー意味セグメンテーションを推論するクロスビュートランスフォーマティブ層で構成されている。
私たちのモデルはシンプルで、簡単に並列化でき、リアルタイムで実行できます。
提示されたアーキテクチャはnuScenesデータセットの最先端で動作し、推論速度は4倍高速である。
コードはhttps://github.com/bradyz/cross_view_transformersで入手できる。
関連論文リスト
- Multiscale Memory Comparator Transformer for Few-Shot Video Segmentation [8.16038976420041]
本稿では,メタ学習型マルチスケールメモリ比較器 (MMC) を提案する。
従来の作業とは違って、スケール情報交換時の詳細な機能マップを保存します。
我々の手法はベースラインを上回り、最先端のパフォーマンスを得る。
論文 参考訳(メタデータ) (2023-07-15T14:21:58Z) - UMIFormer: Mining the Correlations between Similar Tokens for Multi-View
3D Reconstruction [9.874357856580447]
非構造化多重画像(UMIFormer)のためのトランスフォーマネットワークを提案する。
これは、切り離されたビュー内エンコーディングのためのトランスフォーマーブロックと、トークンの修正のために設計されたブロックを利用する。
様々な分岐から取得した全てのトークンは、固定サイズのコンパクト表現に圧縮される。
論文 参考訳(メタデータ) (2023-02-27T17:27:45Z) - A Generalist Framework for Panoptic Segmentation of Images and Videos [61.61453194912186]
我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティクスセグメンテーションを定式化する。
単純な構造と一般的な損失関数を持つパノスコープマスクをモデル化するための拡散モデルを提案する。
本手法は,動画を(ストリーミング環境で)モデル化し,オブジェクトのインスタンスを自動的に追跡することを学ぶ。
論文 参考訳(メタデータ) (2022-10-12T16:18:25Z) - Multiview Transformers for Video Recognition [69.50552269271526]
様々な解像度でMTV(Multiview Video Recognition)を提示する。
MTVは、精度と計算コストの点で、シングルビューよりも一貫してパフォーマンスが良い。
5つの標準データセットで最先端の結果が得られ、大規模事前学習によりさらに改善される。
論文 参考訳(メタデータ) (2022-01-12T03:33:57Z) - Multiview Detection with Shadow Transformer (and View-Coherent Data
Augmentation) [25.598840284457548]
本稿では,マルチビュー情報を集約するシャドートランスを用いた新しいマルチビュー検出器MVDeTrを提案する。
畳み込みとは異なり、シャドートランスフォーマーは様々な位置やカメラで様々な影のような歪みに対処する。
本報告では,提案方式による最新の精度について報告する。
論文 参考訳(メタデータ) (2021-08-12T17:59:02Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Learning Multi-Scene Absolute Pose Regression with Transformers [4.232614032390374]
多層パーセプトロンヘッドを備えた畳み込みバックボーンは、画像とポーズラベルで訓練され、一度に1つの参照シーンを埋め込む。
エンコーダを用いて自己アテンションでアクティベーションマップを集約するトランスフォーマーを用いて,マルチシーンの絶対カメラポーズ回帰を学習することを提案する。
本手法は,屋内および屋外の共通ベンチマークデータセット上で評価し,マルチシーンおよび最先端の1シーンの絶対ポーズレグレッタを上回っていることを示す。
論文 参考訳(メタデータ) (2021-03-21T19:21:44Z) - Lift, Splat, Shoot: Encoding Images From Arbitrary Camera Rigs by
Implicitly Unprojecting to 3D [100.93808824091258]
本稿では,任意の数のカメラから映像データを与えられたシーンの鳥眼ビュー表現を直接抽出するエンド・ツー・エンドアーキテクチャを提案する。
我々のアプローチは、それぞれの画像をそれぞれのカメラのフラストラムに個別に“リフト”し、すべてのフラストラムを鳥の目視格子に“プレート”することです。
提案モデルにより推定される表現は,テンプレートトラジェクトリを鳥眼ビューのコストマップに"撮影"することで,終末動作計画の解釈を可能にすることを示す。
論文 参考訳(メタデータ) (2020-08-13T06:29:01Z) - Single-View View Synthesis with Multiplane Images [64.46556656209769]
深層学習を応用して、既知の視点で2つ以上の入力画像が与えられた多面体画像を生成する。
本手法は,単一画像入力から直接多面体画像を予測することを学習する。
さらに、適切な深度マップを生成し、背景層の前景オブジェクトのエッジの背後にあるコンテンツを埋める。
論文 参考訳(メタデータ) (2020-04-23T17:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。