論文の概要: A Survey of Vision Transformers in Autonomous Driving: Current Trends
and Future Directions
- arxiv url: http://arxiv.org/abs/2403.07542v1
- Date: Tue, 12 Mar 2024 11:29:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:54:22.029476
- Title: A Survey of Vision Transformers in Autonomous Driving: Current Trends
and Future Directions
- Title(参考訳): 自動運転におけるビジョントランスフォーマーの実態と今後の方向性
- Authors: Quoc-Vinh Lai-Dang
- Abstract要約: 本調査では、自律運転における視覚トランスフォーマーモデルの適応について検討する。
自己注意、マルチヘッドアテンション、エンコーダ・デコーダアーキテクチャといった基本的な概念に焦点を当てている。
調査は将来の研究方向で終わり、自動運転におけるビジョントランスフォーマーの役割の増大を強調している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This survey explores the adaptation of visual transformer models in
Autonomous Driving, a transition inspired by their success in Natural Language
Processing. Surpassing traditional Recurrent Neural Networks in tasks like
sequential image processing and outperforming Convolutional Neural Networks in
global context capture, as evidenced in complex scene recognition, Transformers
are gaining traction in computer vision. These capabilities are crucial in
Autonomous Driving for real-time, dynamic visual scene processing. Our survey
provides a comprehensive overview of Vision Transformer applications in
Autonomous Driving, focusing on foundational concepts such as self-attention,
multi-head attention, and encoder-decoder architecture. We cover applications
in object detection, segmentation, pedestrian detection, lane detection, and
more, comparing their architectural merits and limitations. The survey
concludes with future research directions, highlighting the growing role of
Vision Transformers in Autonomous Driving.
- Abstract(参考訳): 本調査では,自然言語処理の成功に触発された自律運転における視覚変換モデルの適応について検討する。
逐次画像処理や畳み込みニューラルネットワークといったタスクで従来のリカレントニューラルネットワークを上回っており、複雑なシーン認識で証明されているように、トランスフォーマーはコンピュータビジョンにおいて勢いを増している。
これらの機能は、リアルタイムでダイナミックな視覚シーン処理のための自動運転において不可欠である。
本調査は,自律運転における視覚トランスフォーマーの応用に関する包括的概要を提供し,自己着脱,マルチヘッド注意,エンコーダ・デコーダ・アーキテクチャといった基礎概念に着目した。
我々は、オブジェクト検出、セグメンテーション、歩行者検出、車線検出などのアプリケーションを取り上げ、それらのアーキテクチャ上のメリットと限界を比較した。
この調査は将来の研究方向で終わり、自動運転における視覚変換器の役割の高まりを強調している。
関連論文リスト
- A Review of Transformer-Based Models for Computer Vision Tasks: Capturing Global Context and Spatial Relationships [0.5639904484784127]
トランスフォーマーモデルによる自然言語処理(NLP)の展望の変化
これらのモデルは、長距離依存やコンテキスト情報をキャプチャする能力で有名である。
コンピュータビジョンにおけるトランスフォーマーモデルの研究の方向性と応用について論じる。
論文 参考訳(メタデータ) (2024-08-27T16:22:18Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective [71.03621840455754]
グラフニューラルネットワーク(GNN)はグラフ表現学習において勢いを増している。
Graph Transformerは、グラフ構造をTransformerアーキテクチャに組み込んで、局所的な近傍集約の制限を克服します。
本稿では,タスク指向の観点から,コンピュータビジョンにおけるGNNとグラフトランスフォーマーの総合的なレビューを行う。
論文 参考訳(メタデータ) (2022-09-27T08:10:14Z) - Vision Transformers for Action Recognition: A Survey [41.69370782177517]
コンピュータビジョン問題を解決する強力なツールとして、ビジョントランスフォーマーが登場している。
最近の技術は、多数のビデオ関連タスクを解決するために、画像領域を超えたトランスフォーマーの有効性を証明している。
人間の行動認識は、広く応用されているため、研究コミュニティから特別に注目を集めている。
論文 参考訳(メタデータ) (2022-09-13T02:57:05Z) - Vision Transformers: State of the Art and Research Challenges [26.462994554165697]
本稿では,異なるアーキテクチャ設計と視覚変換器のトレーニング手法に関する文献の概要を概説する。
我々の目標は、オープンな研究機会を体系的にレビューすることです。
論文 参考訳(メタデータ) (2022-07-07T02:01:56Z) - Transformers in Medical Imaging: A Survey [88.03790310594533]
トランスフォーマーはいくつかのコンピュータビジョン問題に適用され、最先端の結果が得られた。
医療画像はまた、局所受容野を持つCNNと比較して、グローバルな文脈を捉えられるトランスフォーマーへの関心が高まっている。
本稿では,最近提案された建築設計から未解決問題に至るまで,医療画像におけるトランスフォーマーの応用について概説する。
論文 参考訳(メタデータ) (2022-01-24T18:50:18Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。