論文の概要: Laneformer: Object-aware Row-Column Transformers for Lane Detection
- arxiv url: http://arxiv.org/abs/2203.09830v1
- Date: Fri, 18 Mar 2022 10:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:08:16.536076
- Title: Laneformer: Object-aware Row-Column Transformers for Lane Detection
- Title(参考訳): laneformer:レーン検出のためのオブジェクト対応行列変換器
- Authors: Jianhua Han, Xiajun Deng, Xinyue Cai, Zhen Yang, Hang Xu, Chunjing Xu,
Xiaodan Liang
- Abstract要約: Laneformerは、自動運転における車線検出に適したトランスフォーマーベースのアーキテクチャである。
様々な視覚タスクにおけるトランスフォーマーエンコーダ・デコーダアーキテクチャの最近の進歩に触発されて、我々は新しいエンドツーエンドのLaneformerアーキテクチャの設計を進める。
- 参考スコア(独自算出の注目度): 96.62919884511287
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Laneformer, a conceptually simple yet powerful transformer-based
architecture tailored for lane detection that is a long-standing research topic
for visual perception in autonomous driving. The dominant paradigms rely on
purely CNN-based architectures which often fail in incorporating relations of
long-range lane points and global contexts induced by surrounding objects
(e.g., pedestrians, vehicles). Inspired by recent advances of the transformer
encoder-decoder architecture in various vision tasks, we move forwards to
design a new end-to-end Laneformer architecture that revolutionizes the
conventional transformers into better capturing the shape and semantic
characteristics of lanes, with minimal overhead in latency. First, coupling
with deformable pixel-wise self-attention in the encoder, Laneformer presents
two new row and column self-attention operations to efficiently mine point
context along with the lane shapes. Second, motivated by the appearing objects
would affect the decision of predicting lane segments, Laneformer further
includes the detected object instances as extra inputs of multi-head attention
blocks in the encoder and decoder to facilitate the lane point detection by
sensing semantic contexts. Specifically, the bounding box locations of objects
are added into Key module to provide interaction with each pixel and query
while the ROI-aligned features are inserted into Value module. Extensive
experiments demonstrate our Laneformer achieves state-of-the-art performances
on CULane benchmark, in terms of 77.1% F1 score. We hope our simple and
effective Laneformer will serve as a strong baseline for future research in
self-attention models for lane detection.
- Abstract(参考訳): 本稿では、車線検出に適した概念的にシンプルだが強力なトランスフォーマーベースのアーキテクチャであるLaneformerについて紹介する。
支配的なパラダイムは純粋にcnnベースのアーキテクチャに依存しており、長距離レーンポイントと周囲の物体(例えば歩行者や車両)によって引き起こされるグローバルコンテキストの関係を組み込むのに失敗することが多い。
様々なビジョンタスクにおけるトランスフォーマエンコーダ・デコーダアーキテクチャの最近の進歩に触発されて、我々は従来のトランスフォーマを革命させ、レーンの形状とセマンティクス特性をより良く捉え、レイテンシのオーバーヘッドを最小限に抑える新しいエンド・ツー・エンドのレーンフォーマアーキテクチャを設計した。
まず、エンコーダ内の変形可能な画素単位のセルフアテンションと結合して、 laneformerは2つの新しい行と列の自己アテンション操作を示し、レーン形状と共にポイントコンテキストを効率的にマイニングする。
第二に、出現するオブジェクトがレーンセグメントを予測する決定に動機づけられ、さらに検出されたオブジェクトインスタンスをエンコーダ内のマルチヘッドアテンションブロックの余分な入力として含むことで、意味的コンテキストを感知してレーンポイント検出を容易にする。
具体的には、オブジェクトのバウンディングボックス位置をキーモジュールに追加して、各ピクセルとクエリとのインタラクションを提供し、ROIに沿った機能をバリューモジュールに挿入する。
我々のLaneformerは77.1%のF1スコアでCULaneベンチマークで最先端のパフォーマンスを達成した。
我々の単純で効果的なレーンフォーマーが、レーン検出のための自己認識モデルにおける将来の研究の強力なベースラインとなることを願っている。
関連論文リスト
- Betrayed by Attention: A Simple yet Effective Approach for
Self-supervised Video Object Segmentation [82.26906652229715]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - HoughLaneNet: Lane Detection with Deep Hough Transform and Dynamic
Convolution [8.97991745734826]
レーンは狭く、断片化され、しばしば交通量が多いために、検出の困難を生じさせる。
画像中のすべての車線特徴をHoughパラメータ空間に組み合わせた階層的Deep Hough Transform (DHT) 手法を提案する。
提案するネットワーク構造は,重閉塞あるいは摩耗された車線画像の検出性能の向上を実証する。
論文 参考訳(メタデータ) (2023-07-07T10:08:29Z) - Object Discovery from Motion-Guided Tokens [50.988525184497334]
自動エンコーダ表現学習フレームワークを、モーションガイダンスと中間レベルの特徴トークン化により強化する。
我々のアプローチは、解釈可能なオブジェクト固有の中間レベルの特徴の出現を可能にする。
論文 参考訳(メタデータ) (2023-03-27T19:14:00Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Lane Detection with Versatile AtrousFormer and Local Semantic Guidance [92.83267435275802]
車線検出は自動運転における中核機能の一つである。
既存のほとんどの手法はCNNベースの手法に頼っている。
本稿では,この問題を解決するためにAtrous Transformer (AtrousFormer)を提案する。
論文 参考訳(メタデータ) (2022-03-08T13:25:35Z) - Structure Guided Lane Detection [9.198190304197107]
レーン検出は、ディープニューラルネットワークと自動運転の急速な開発で大きな進歩を遂げた。
レーンの特徴付け、シーンとレーンの構造的関係のモデル化、レーンのより多くの属性(例と型)のサポートなど、主に3つの問題がある。
本稿では,これらの問題を解決するための新しい構造誘導フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-12T02:35:00Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - End-to-end Lane Shape Prediction with Transformers [13.103463647059634]
車線検出は、車両の車線離脱警告と適応クルーズ制御に広く用いられている。
レーン形状モデルのパラメータを直接出力するエンドツーエンド手法を提案する。
提案手法はTuSimpleベンチマークで検証され,最も軽量なモデルサイズと高速な速度で最先端の精度を示す。
論文 参考訳(メタデータ) (2020-11-09T07:42:55Z) - Lane Detection Model Based on Spatio-Temporal Network With Double
Convolutional Gated Recurrent Units [11.968518335236787]
レーン検出は今後しばらくは未解決の問題として残るだろう。
二重円錐 Gated Recurrent Units (ConvGRUs) を用いた時空間ネットワークは、困難なシーンにおける車線検出に対処することを提案した。
我々のモデルは最先端の車線検出モデルより優れている。
論文 参考訳(メタデータ) (2020-08-10T06:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。