論文の概要: Laneformer: Object-aware Row-Column Transformers for Lane Detection
- arxiv url: http://arxiv.org/abs/2203.09830v1
- Date: Fri, 18 Mar 2022 10:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-21 15:08:16.536076
- Title: Laneformer: Object-aware Row-Column Transformers for Lane Detection
- Title(参考訳): laneformer:レーン検出のためのオブジェクト対応行列変換器
- Authors: Jianhua Han, Xiajun Deng, Xinyue Cai, Zhen Yang, Hang Xu, Chunjing Xu,
Xiaodan Liang
- Abstract要約: Laneformerは、自動運転における車線検出に適したトランスフォーマーベースのアーキテクチャである。
様々な視覚タスクにおけるトランスフォーマーエンコーダ・デコーダアーキテクチャの最近の進歩に触発されて、我々は新しいエンドツーエンドのLaneformerアーキテクチャの設計を進める。
- 参考スコア(独自算出の注目度): 96.62919884511287
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Laneformer, a conceptually simple yet powerful transformer-based
architecture tailored for lane detection that is a long-standing research topic
for visual perception in autonomous driving. The dominant paradigms rely on
purely CNN-based architectures which often fail in incorporating relations of
long-range lane points and global contexts induced by surrounding objects
(e.g., pedestrians, vehicles). Inspired by recent advances of the transformer
encoder-decoder architecture in various vision tasks, we move forwards to
design a new end-to-end Laneformer architecture that revolutionizes the
conventional transformers into better capturing the shape and semantic
characteristics of lanes, with minimal overhead in latency. First, coupling
with deformable pixel-wise self-attention in the encoder, Laneformer presents
two new row and column self-attention operations to efficiently mine point
context along with the lane shapes. Second, motivated by the appearing objects
would affect the decision of predicting lane segments, Laneformer further
includes the detected object instances as extra inputs of multi-head attention
blocks in the encoder and decoder to facilitate the lane point detection by
sensing semantic contexts. Specifically, the bounding box locations of objects
are added into Key module to provide interaction with each pixel and query
while the ROI-aligned features are inserted into Value module. Extensive
experiments demonstrate our Laneformer achieves state-of-the-art performances
on CULane benchmark, in terms of 77.1% F1 score. We hope our simple and
effective Laneformer will serve as a strong baseline for future research in
self-attention models for lane detection.
- Abstract(参考訳): 本稿では、車線検出に適した概念的にシンプルだが強力なトランスフォーマーベースのアーキテクチャであるLaneformerについて紹介する。
支配的なパラダイムは純粋にcnnベースのアーキテクチャに依存しており、長距離レーンポイントと周囲の物体(例えば歩行者や車両)によって引き起こされるグローバルコンテキストの関係を組み込むのに失敗することが多い。
様々なビジョンタスクにおけるトランスフォーマエンコーダ・デコーダアーキテクチャの最近の進歩に触発されて、我々は従来のトランスフォーマを革命させ、レーンの形状とセマンティクス特性をより良く捉え、レイテンシのオーバーヘッドを最小限に抑える新しいエンド・ツー・エンドのレーンフォーマアーキテクチャを設計した。
まず、エンコーダ内の変形可能な画素単位のセルフアテンションと結合して、 laneformerは2つの新しい行と列の自己アテンション操作を示し、レーン形状と共にポイントコンテキストを効率的にマイニングする。
第二に、出現するオブジェクトがレーンセグメントを予測する決定に動機づけられ、さらに検出されたオブジェクトインスタンスをエンコーダ内のマルチヘッドアテンションブロックの余分な入力として含むことで、意味的コンテキストを感知してレーンポイント検出を容易にする。
具体的には、オブジェクトのバウンディングボックス位置をキーモジュールに追加して、各ピクセルとクエリとのインタラクションを提供し、ROIに沿った機能をバリューモジュールに挿入する。
我々のLaneformerは77.1%のF1スコアでCULaneベンチマークで最先端のパフォーマンスを達成した。
我々の単純で効果的なレーンフォーマーが、レーン検出のための自己認識モデルにおける将来の研究の強力なベースラインとなることを願っている。
関連論文リスト
- Monocular Lane Detection Based on Deep Learning: A Survey [51.19079381823076]
車線検出は自律運転認識システムにおいて重要な役割を果たす。
ディープラーニングアルゴリズムが普及するにつれて、ディープラーニングに基づく単眼車線検出手法が優れた性能を示した。
本稿では, 成熟度の高い2次元車線検出手法と開発途上国の3次元車線検出技術の両方を網羅して, 既存手法の概要を概説する。
論文 参考訳(メタデータ) (2024-11-25T12:09:43Z) - LaneTCA: Enhancing Video Lane Detection with Temporal Context Aggregation [87.71768494466959]
LaneTCAは個々のビデオフレームをブリッジし、時間的コンテキストを効果的に集約する方法を探る。
本研究では,長期的・短期的文脈を抽象化するアキュマティブアテンションモジュールと隣接アテンションモジュールを開発する。
2つのモジュールは、トランスフォーマーアーキテクチャに基づいて慎重に設計されている。
論文 参考訳(メタデータ) (2024-08-25T14:46:29Z) - ENet-21: An Optimized light CNN Structure for Lane Detection [1.4542411354617986]
本研究では,車線検出問題に対する最適構造について検討する。
現代の車両の運転支援機能には有望なソリューションを提供する。
TuSimpleデータセットの実験は提案手法の有効性を支持する。
論文 参考訳(メタデータ) (2024-03-28T19:07:26Z) - LDTR: Transformer-based Lane Detection with Anchor-chain Representation [11.184960972042406]
限定的あるいは非視覚的な車線検出シナリオは、自動走行において依然として困難で不可欠である。
これらの問題に対処するためのトランスモデルであるLDTRを提案する。
実験により、LDTRはよく知られたデータセット上で最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2024-03-21T12:29:26Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - HoughLaneNet: Lane Detection with Deep Hough Transform and Dynamic
Convolution [8.97991745734826]
レーンは狭く、断片化され、しばしば交通量が多いために、検出の困難を生じさせる。
画像中のすべての車線特徴をHoughパラメータ空間に組み合わせた階層的Deep Hough Transform (DHT) 手法を提案する。
提案するネットワーク構造は,重閉塞あるいは摩耗された車線画像の検出性能の向上を実証する。
論文 参考訳(メタデータ) (2023-07-07T10:08:29Z) - Vision Transformer with Quadrangle Attention [76.35955924137986]
窓面に基づく注意を一般的な四角形定式化に拡張する新しい四角形注意法(QA)を提案する。
提案手法では,既定のウィンドウを対象の四角形に変換するために,変換行列を予測し,エンドツーエンドで学習可能な四角形回帰モジュールを用いる。
QAをプレーンかつ階層的な視覚変換器に統合し、QFormerという名の新しいアーキテクチャを作成します。
論文 参考訳(メタデータ) (2023-03-27T11:13:50Z) - Lane Detection with Versatile AtrousFormer and Local Semantic Guidance [92.83267435275802]
車線検出は自動運転における中核機能の一つである。
既存のほとんどの手法はCNNベースの手法に頼っている。
本稿では,この問題を解決するためにAtrous Transformer (AtrousFormer)を提案する。
論文 参考訳(メタデータ) (2022-03-08T13:25:35Z) - End-to-end Lane Shape Prediction with Transformers [13.103463647059634]
車線検出は、車両の車線離脱警告と適応クルーズ制御に広く用いられている。
レーン形状モデルのパラメータを直接出力するエンドツーエンド手法を提案する。
提案手法はTuSimpleベンチマークで検証され,最も軽量なモデルサイズと高速な速度で最先端の精度を示す。
論文 参考訳(メタデータ) (2020-11-09T07:42:55Z) - Lane Detection Model Based on Spatio-Temporal Network With Double
Convolutional Gated Recurrent Units [11.968518335236787]
レーン検出は今後しばらくは未解決の問題として残るだろう。
二重円錐 Gated Recurrent Units (ConvGRUs) を用いた時空間ネットワークは、困難なシーンにおける車線検出に対処することを提案した。
我々のモデルは最先端の車線検出モデルより優れている。
論文 参考訳(メタデータ) (2020-08-10T06:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。