論文の概要: Exploring Driving Behavior for Autonomous Vehicles Based on Gramian Angular Field Vision Transformer
- arxiv url: http://arxiv.org/abs/2310.13906v2
- Date: Sun, 1 Sep 2024 17:28:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 22:14:48.334853
- Title: Exploring Driving Behavior for Autonomous Vehicles Based on Gramian Angular Field Vision Transformer
- Title(参考訳): Gramian Angular Field Vision Transformerに基づく自動運転車の運転行動探索
- Authors: Junwei You, Ying Chen, Zhuoyu Jiang, Zhangchi Liu, Zilin Huang, Yifeng Ding, Bin Ran,
- Abstract要約: 本稿では,運転動作の分析を目的としたGAF-ViTモデルを提案する。
提案したViTモデルは、Transformer Module、Channel Attention Module、Multi-Channel ViT Moduleの3つの主要なコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 12.398902878803034
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective classification of autonomous vehicle (AV) driving behavior emerges as a critical area for diagnosing AV operation faults, enhancing autonomous driving algorithms, and reducing accident rates. This paper presents the Gramian Angular Field Vision Transformer (GAF-ViT) model, designed to analyze AV driving behavior. The proposed GAF-ViT model consists of three key components: GAF Transformer Module, Channel Attention Module, and Multi-Channel ViT Module. These modules collectively convert representative sequences of multivariate behavior into multi-channel images and employ image recognition techniques for behavior classification. A channel attention mechanism is applied to multi-channel images to discern the impact of various driving behavior features. Experimental evaluation on the Waymo Open Dataset of trajectories demonstrates that the proposed model achieves state-of-the-art performance. Furthermore, an ablation study effectively substantiates the efficacy of individual modules within the model.
- Abstract(参考訳): 自動運転車の運転行動の効果的な分類は、AV運転障害の診断、自律運転アルゴリズムの強化、事故率の低減に重要な領域として現れる。
本稿では,AV駆動動作の解析を目的としたGAF-ViTモデルを提案する。
提案したGAF-ViTモデルは、GAF Transformer Module、Channel Attention Module、Multi-Channel ViT Moduleの3つの主要なコンポーネントで構成されている。
これらのモジュールは、多変量行動の代表列を多チャンネル画像に変換し、行動分類に画像認識技術を用いる。
チャネルアテンション機構を多チャンネル画像に適用し、様々な運転行動特徴の影響を識別する。
Waymo Open Dataset of trajectories 実験により,提案モデルが最先端性能を実現することを示す。
さらに、アブレーション研究は、モデル内の個々のモジュールの有効性を効果的に裏付けるものである。
関連論文リスト
- MultiFuser: Multimodal Fusion Transformer for Enhanced Driver Action Recognition [10.060717595852271]
我々はMultiFuserという新しいマルチモーダル核融合トランスを提案する。
マルチモーダルカーキャビンビデオ間の相互関係と相互作用を識別する。
Drive&Actデータセットで大規模な実験を行う。
論文 参考訳(メタデータ) (2024-08-03T12:33:21Z) - Optimization of Autonomous Driving Image Detection Based on RFAConv and Triplet Attention [1.345669927504424]
本稿では, YOLOv8モデルの拡張のための総合的アプローチを提案する。
C2f_RFAConvモジュールは、機能の抽出効率を高めるために元のモジュールを置き換える。
Triplet Attentionメカニズムは、ターゲット検出の強化のための特徴焦点を強化する。
論文 参考訳(メタデータ) (2024-06-25T08:59:33Z) - Revolutionizing Traffic Sign Recognition: Unveiling the Potential of Vision Transformers [0.0]
交通信号認識(TSR)は、運転支援システムや自動運転車において重要な役割を担っている。
本研究では、ベースラインモデルとしてビジョントランスフォーマー(PVT、TNT、LNL)と6つの畳み込みニューラルネットワーク(AlexNet、ResNet、VGG16、MobileNet、EfficientNet、GoogleNet)を探索する。
従来の手法の欠点に対処するため、新しいピラミッドEATFormerバックボーンを提案し、進化的アルゴリズム(EA)とTransformerアーキテクチャを組み合わせる。
論文 参考訳(メタデータ) (2024-04-29T19:18:52Z) - Text-Driven Traffic Anomaly Detection with Temporal High-Frequency Modeling in Driving Videos [22.16190711818432]
本稿では,ビデオクリップをテキストプロンプトと整合させる新しい単一ステージ手法であるTHFを紹介し,交通異常検出の新しい視点を提供する。
従来の手法とは異なり、我々の手法の教師付き信号は1ホットベクトルではなく言語から派生しており、より包括的な表現を提供する。
提案したTTHFは,DoTAデータセット上で,+5.4%のAUCで,最先端の競合よりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-07T15:47:19Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Identifying Reaction-Aware Driving Styles of Stochastic Model Predictive
Controlled Vehicles by Inverse Reinforcement Learning [7.482319659599853]
自動運転車の運転スタイルは、他のAVとの動作と相互作用の仕方を指す。
多車種自律運転システムにおいて、近くのAVの運転スタイルを識別できるAVは、衝突のリスクを確実に評価することができる。
論文 参考訳(メタデータ) (2023-08-23T11:31:50Z) - Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。
本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文 参考訳(メタデータ) (2021-04-19T11:48:13Z) - Bidirectional Interaction between Visual and Motor Generative Models
using Predictive Coding and Active Inference [68.8204255655161]
本稿では,感覚予測のための生成モデルと,運動軌跡の生成モデルからなるニューラルアーキテクチャを提案する。
我々は,知覚予測のシーケンスが学習,制御,オンライン適応を導くレールとしてどのように機能するかを強調する。
論文 参考訳(メタデータ) (2021-04-19T09:41:31Z) - A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。
提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文 参考訳(メタデータ) (2021-03-01T06:47:29Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z) - Parsing-based View-aware Embedding Network for Vehicle Re-Identification [138.11983486734576]
本稿では,車載ReIDのビューアウェア機能アライメントと拡張を実現するために,解析に基づくPVEN(View-Aware Embedding Network)を提案する。
3つのデータセットで行った実験により、我々のモデルは最先端の手法よりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-04-10T13:06:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。