論文の概要: PriorLane: A Prior Knowledge Enhanced Lane Detection Approach Based on
Transformer
- arxiv url: http://arxiv.org/abs/2209.06994v1
- Date: Thu, 15 Sep 2022 01:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:52:21.424869
- Title: PriorLane: A Prior Knowledge Enhanced Lane Detection Approach Based on
Transformer
- Title(参考訳): PriorLane: トランスを用いた事前知識強化レーン検出手法
- Authors: Qibo Qiu, Haiming Gao, Wei Hua, Gang Huang and Xiaofei He
- Abstract要約: PriorLaneはフルビジョントランスのセグメンテーション性能を高めるために使用される。
PriorLaneは、エンコーダのみのトランスフォーマーを使用して、事前学習されたセグメンテーションモデルによって抽出された機能を、事前の知識埋め込みで融合する。
Zjlabデータセットの実験では、Preside-LaneはSOTAレーン検出法を2.82% mIoUで上回っている。
- 参考スコア(独自算出の注目度): 10.55399679259444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lane detection is one of the fundamental modules in self-driving. In this
paper we employ a transformer-only method for lane detection, thus it could
benefit from the blooming development of fully vision transformer and achieves
the state-of-the-art (SOTA) performance on both CULane and TuSimple benchmarks,
by fine-tuning the weight fully pre-trained on large datasets. More
importantly, this paper proposes a novel and general framework called
PriorLane, which is used to enhance the segmentation performance of the fully
vision transformer by introducing the low-cost local prior knowledge. PriorLane
utilizes an encoder-only transformer to fuse the feature extracted by a
pre-trained segmentation model with prior knowledge embeddings. Note that a
Knowledge Embedding Alignment (KEA) module is adapted to enhance the fusion
performance by aligning the knowledge embedding. Extensive experiments on our
Zjlab dataset show that Prior-Lane outperforms SOTA lane detection methods by a
2.82% mIoU, and the code will be released at: https://github.
com/vincentqqb/PriorLane.
- Abstract(参考訳): レーン検出は自動運転の基本的なモジュールの1つである。
本稿では,レーン検出にトランスフォーマのみの手法を採用することで,フルビジョントランスフォーマの開花による恩恵を受けるとともに,大規模データセットで事前学習した重みを微調整することにより,culaneおよびtusimpleベンチマークの最先端(sota)性能を実現する。
さらに, 低コストの局所的事前知識の導入により, 完全視覚トランスフォーマのセグメンテーション性能を向上させるための, priorlane と呼ばれる新しい汎用フレームワークを提案する。
PriorLaneは、エンコーダのみのトランスフォーマーを使用して、事前学習されたセグメンテーションモデルによって抽出された機能を、事前の知識埋め込みで融合する。
知識埋め込みアライメント(KEA)モジュールは、知識埋め込みを整列させて融合性能を高めるために適合している。
Zjlabデータセットの大規模な実験によると、Preside-LaneはSOTAレーン検出メソッドを2.82% mIoUで上回り、コードは次の通りリリースされる。
PriorLane.com/vincentqqb/PriorLane。
関連論文リスト
- Enhancing Lane Segment Perception and Topology Reasoning with Crowdsourcing Trajectory Priors [12.333249510969289]
本稿では, 軌道先行の新たな視点から, 先行オーディメンテーションを考察する。
我々は、融合プロセス中にアライメントを考慮に入れた信頼に基づく融合モジュールを設計する。
その結果,本手法の性能は現在の最先端手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-11-26T07:05:05Z) - Remote Sensing Change Detection With Transformers Trained from Scratch [62.96911491252686]
トランスフォーマーベースの変更検出(CD)アプローチでは、大規模なイメージ分類でトレーニングされた事前トレーニングモデルを使用するか、別のCDデータセットで最初の事前トレーニングを頼りにしてから、ターゲットのベンチマークを微調整する。
我々は、4つの公開ベンチマークにおいて、スクラッチからトレーニングされながら最先端のパフォーマンスを実現するトランスフォーマーを用いたエンドツーエンドCDアプローチを開発した。
論文 参考訳(メタデータ) (2023-04-13T17:57:54Z) - ViT-Calibrator: Decision Stream Calibration for Vision Transformer [49.60474757318486]
本稿では、一般的な視覚変換器の性能を高めるための、決定ストリームと呼ばれる新しいパラダイムを提案する。
異なるトークンと複数の次元の関連係数の相関関係を探索し,学習過程における情報伝達機構について光を当てた。
論文 参考訳(メタデータ) (2023-04-10T02:40:24Z) - Integral Migrating Pre-trained Transformer Encoder-decoders for Visual
Object Detection [78.2325219839805]
imTEDは、数発のオブジェクト検出の最先端を最大7.6%改善する。
MS COCOデータセットの実験は、imTEDが一貫してそのデータセットを2.8%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-19T15:11:20Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - Laneformer: Object-aware Row-Column Transformers for Lane Detection [96.62919884511287]
Laneformerは、自動運転における車線検出に適したトランスフォーマーベースのアーキテクチャである。
様々な視覚タスクにおけるトランスフォーマーエンコーダ・デコーダアーキテクチャの最近の進歩に触発されて、我々は新しいエンドツーエンドのLaneformerアーキテクチャの設計を進める。
論文 参考訳(メタデータ) (2022-03-18T10:14:35Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。