Fugu-MT 論文翻訳(概要): Exploring Driving Behavior for Autonomous Vehicles Based on Gramian Angular Field Vision Transformer

論文の概要: Exploring Driving Behavior for Autonomous Vehicles Based on Gramian Angular Field Vision Transformer

arxiv url: http://arxiv.org/abs/2310.13906v1
Date: Sat, 21 Oct 2023 04:24:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-25 04:40:04.899813
Title: Exploring Driving Behavior for Autonomous Vehicles Based on Gramian Angular Field Vision Transformer
Title（参考訳）: Gramian Angular Field Vision Transformerに基づく自動運転車の運転行動探索
Authors: Junwei You, Ying Chen, Zhuoyu Jiang, Zhangchi Liu, Zilin Huang, Yifeng Ding, Bin Ran
Abstract要約: 本稿では,運転動作の分析を目的としたGAF-ViTモデルを提案する。提案したViTモデルは、Transformer Module、Channel Attention Module、Multi-Channel ViT Moduleの3つの主要なコンポーネントで構成されている。
参考スコア（独自算出の注目度）: 13.020654798874475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Effective classification of autonomous vehicle (AV) driving behavior emerges as a critical area for diagnosing AV operation faults, enhancing autonomous driving algorithms, and reducing accident rates. This paper presents the Gramian Angular Field Vision Transformer (GAF-ViT) model, designed to analyze AV driving behavior. The proposed GAF-ViT model consists of three key components: GAF Transformer Module, Channel Attention Module, and Multi-Channel ViT Module. These modules collectively convert representative sequences of multivariate behavior into multi-channel images and employ image recognition techniques for behavior classification. A channel attention mechanism is applied to multi-channel images to discern the impact of various driving behavior features. Experimental evaluation on the Waymo Open Dataset of trajectories demonstrates that the proposed model achieves state-of-the-art performance. Furthermore, an ablation study effectively substantiates the efficacy of individual modules within the model.
Abstract（参考訳）: 自動運転車の運転行動の効果的な分類は、AV運転障害の診断、自律運転アルゴリズムの強化、事故率の低減に重要な領域として現れる。本稿では,av運転挙動解析のために設計されたgranian angular field vision transformer (gaf-vit)モデルを提案する。提案するgaf-vitモデルは,gafトランスフォーマーモジュール,チャネルアテンションモジュール,マルチチャネルvitモジュールの3つのキーコンポーネントで構成されている。これらのモジュールは、多変量行動の代表列を多チャンネル画像に変換し、行動分類に画像認識技術を用いる。複数チャンネル画像にチャンネル注目機構を適用し、様々な運転行動特性の影響を識別する。 Waymo Open Dataset of trajectories 実験により,提案モデルが最先端性能を実現することを示す。さらに、アブレーション研究はモデル内の個々のモジュールの有効性を効果的に実証する。

関連論文リスト

Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文参考訳（メタデータ） (2025-08-03T12:06:47Z)
Audio and Multiscale Visual Cues Driven Cross-modal Transformer for Idling Vehicle Detection [1.2699007098398802]
アイドリング車両検出(IVD)は、過度のアイドリング行動を抑制するために動的メッセージングドライバによって汚染や排出を減らすリアルタイムシステムをサポートする。コンピュータービジョンにおいて、IVDは、監視カメラとリモートマイクからのオーディオのビデオを利用して、各フレーム内の車両を移動、アイドリング、エンジンオフとしてローカライズし、分類する新しいタスクとなっている。本稿では,トランスフォーマに基づくエンドツーエンド検出ネットワークであるAVIVDNetv2を提案する。グローバルパッチレベルの学習,マルチスケール視覚特徴融合モジュール,デカップリングされた検出ヘッドを備えたクロスモーダルトランスフォーマを備える。
論文参考訳（メタデータ） (2025-04-15T21:10:17Z)
An object detection approach for lane change and overtake detection from motion profiles [3.545178658731506]
本稿では,移動プロファイルに適用した新しい物体検出手法を用いて,オーバーテイクおよびレーン変更動作の同定を行う。モデルをトレーニングし、テストするために、ヘテロジニアスなダシュカムビデオから得られたモーションプロファイル画像の内部データセットを作成しました。標準のオブジェクト検出アプローチに加えて、CoordConvolutionレイヤを含めることで、モデルの性能がさらに向上することを示す。
論文参考訳（メタデータ） (2025-02-06T17:36:35Z)
MultiFuser: Multimodal Fusion Transformer for Enhanced Driver Action Recognition [10.060717595852271]
我々はMultiFuserという新しいマルチモーダル核融合トランスを提案する。マルチモーダルカーキャビンビデオ間の相互関係と相互作用を識別する。 Drive&Actデータセットで大規模な実験を行う。
論文参考訳（メタデータ） (2024-08-03T12:33:21Z)
Optimization of Autonomous Driving Image Detection Based on RFAConv and Triplet Attention [1.345669927504424]
本稿では, YOLOv8モデルの拡張のための総合的アプローチを提案する。 C2f_RFAConvモジュールは、機能の抽出効率を高めるために元のモジュールを置き換える。 Triplet Attentionメカニズムは、ターゲット検出の強化のための特徴焦点を強化する。
論文参考訳（メタデータ） (2024-06-25T08:59:33Z)
Revolutionizing Traffic Sign Recognition: Unveiling the Potential of Vision Transformers [0.0]
交通信号認識(TSR)は、運転支援システムや自動運転車において重要な役割を担っている。本研究では、ベースラインモデルとしてビジョントランスフォーマー(PVT、TNT、LNL)と6つの畳み込みニューラルネットワーク(AlexNet、ResNet、VGG16、MobileNet、EfficientNet、GoogleNet)を探索する。従来の手法の欠点に対処するため、新しいピラミッドEATFormerバックボーンを提案し、進化的アルゴリズム(EA)とTransformerアーキテクチャを組み合わせる。
論文参考訳（メタデータ） (2024-04-29T19:18:52Z)
Text-Driven Traffic Anomaly Detection with Temporal High-Frequency Modeling in Driving Videos [22.16190711818432]
本稿では,ビデオクリップをテキストプロンプトと整合させる新しい単一ステージ手法であるTHFを紹介し,交通異常検出の新しい視点を提供する。従来の手法とは異なり、我々の手法の教師付き信号は1ホットベクトルではなく言語から派生しており、より包括的な表現を提供する。提案したTTHFは,DoTAデータセット上で,+5.4%のAUCで,最先端の競合よりも優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-01-07T15:47:19Z)
Unified Frequency-Assisted Transformer Framework for Detecting and Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文参考訳（メタデータ） (2023-09-18T11:06:42Z)
Identifying Reaction-Aware Driving Styles of Stochastic Model Predictive Controlled Vehicles by Inverse Reinforcement Learning [7.482319659599853]
自動運転車の運転スタイルは、他のAVとの動作と相互作用の仕方を指す。多車種自律運転システムにおいて、近くのAVの運転スタイルを識別できるAVは、衝突のリスクを確実に評価することができる。
論文参考訳（メタデータ） (2023-08-23T11:31:50Z)
Multi-Modal Fusion Transformer for End-to-End Autonomous Driving [59.60483620730437]
画像表現とLiDAR表現を注目で統合する,新しいマルチモードフュージョントランスフォーマであるTransFuserを提案する。本手法は, 衝突を76%低減しつつ, 最先端駆動性能を実現する。
論文参考訳（メタデータ） (2021-04-19T11:48:13Z)
Bidirectional Interaction between Visual and Motor Generative Models using Predictive Coding and Active Inference [68.8204255655161]
本稿では,感覚予測のための生成モデルと,運動軌跡の生成モデルからなるニューラルアーキテクチャを提案する。我々は,知覚予測のシーケンスが学習,制御,オンライン適応を導くレールとしてどのように機能するかを強調する。
論文参考訳（メタデータ） (2021-04-19T09:41:31Z)
A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文参考訳（メタデータ） (2021-03-01T06:47:29Z)
Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。私達のアプローチは人間の相互作用なしで完全に自動です。 VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文参考訳（メタデータ） (2020-12-15T03:03:38Z)
Parsing-based View-aware Embedding Network for Vehicle Re-Identification [138.11983486734576]
本稿では,車載ReIDのビューアウェア機能アライメントと拡張を実現するために,解析に基づくPVEN(View-Aware Embedding Network)を提案する。 3つのデータセットで行った実験により、我々のモデルは最先端の手法よりも大きなマージンで優れていることが示された。
論文参考訳（メタデータ） (2020-04-10T13:06:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。