論文の概要: Vision Transformer for Learning Driving Policies in Complex Multi-Agent
Environments
- arxiv url: http://arxiv.org/abs/2109.06514v1
- Date: Tue, 14 Sep 2021 08:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-16 01:10:48.954389
- Title: Vision Transformer for Learning Driving Policies in Complex Multi-Agent
Environments
- Title(参考訳): 複雑なマルチエージェント環境下での運転ポリシー学習のための視覚変換器
- Authors: Eshagh Kargar, Ville Kyrki
- Abstract要約: 我々は,視覚変換器(ViT)を用いて,鳥眼ビュー(BEV)入力画像を用いた都市環境における運転方針を学習することを提案する。
ViTネットワークは、従来提案されていた畳み込みニューラルネットワーク(ConvNets)よりも、シーンのグローバルなコンテキストを効果的に学習する
- 参考スコア(独自算出の注目度): 17.825845543579195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driving in a complex urban environment is a difficult task that requires a
complex decision policy. In order to make informed decisions, one needs to gain
an understanding of the long-range context and the importance of other
vehicles. In this work, we propose to use Vision Transformer (ViT) to learn a
driving policy in urban settings with birds-eye-view (BEV) input images. The
ViT network learns the global context of the scene more effectively than with
earlier proposed Convolutional Neural Networks (ConvNets). Furthermore, ViT's
attention mechanism helps to learn an attention map for the scene which allows
the ego car to determine which surrounding cars are important to its next
decision. We demonstrate that a DQN agent with a ViT backbone outperforms
baseline algorithms with ConvNet backbones pre-trained in various ways. In
particular, the proposed method helps reinforcement learning algorithms to
learn faster, with increased performance and less data than baselines.
- Abstract(参考訳): 複雑な都市環境での運転は、複雑な意思決定ポリシーを必要とする難しい作業である。
情報的な意思決定を行うには、長距離状況と他の車両の重要性を理解する必要がある。
本研究では、視覚変換器(ViT)を用いて、鳥眼ビュー(BEV)入力画像を用いた都市環境における運転方針を学習することを提案する。
vitネットワークは、以前の畳み込みニューラルネットワーク(convnets)よりも、シーンのグローバルコンテキストをより効果的に学習する。
さらに、ViTのアテンションメカニズムは、エゴカーが次の決定においてどの周囲の車が重要かを判断できるようにするシーンのアテンションマップの学習に役立つ。
本研究では,ViTバックボーンを持つDQNエージェントが,様々な方法で事前学習されたConvNetバックボーンを用いてベースラインアルゴリズムより優れていることを示す。
特に,提案手法は,学習アルゴリズムの学習を高速化し,性能が向上し,ベースラインよりも少ない。
関連論文リスト
- SPformer: A Transformer Based DRL Decision Making Method for Connected Automated Vehicles [9.840325772591024]
本稿ではトランスフォーマーと強化学習アルゴリズムに基づくCAV意思決定アーキテクチャを提案する。
学習可能なポリシートークンは、多車連携ポリシーの学習媒体として使用される。
我々のモデルは交通シナリオにおける車両の全ての状態情報をうまく活用することができる。
論文 参考訳(メタデータ) (2024-09-23T15:16:35Z) - Deep Attention Driven Reinforcement Learning (DAD-RL) for Autonomous Decision-Making in Dynamic Environment [2.3575550107698016]
AV中心の時間的注意符号化(STAE)機構を導入し,周囲の車両との動的相互作用を学習する。
マップとルートのコンテキストを理解するために,コンテキストマップの抽出にコンテキストエンコーダを用いる。
得られたモデルは、Soft Actor Critic (SAC)アルゴリズムを用いて訓練される。
論文 参考訳(メタデータ) (2024-07-12T02:34:44Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - Deep Perspective Transformation Based Vehicle Localization on Bird's Eye
View [0.49747156441456597]
従来のアプローチでは、環境をシミュレートする複数のセンサーのインストールに依存していた。
シーンのトップダウン表現を生成することで、代替ソリューションを提案する。
本稿では,RGB画像の視点ビューを,周囲の車両を分割した鳥眼ビューマップに変換するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-11-12T10:16:42Z) - Federated Deep Learning Meets Autonomous Vehicle Perception: Design and
Verification [168.67190934250868]
フェデレーテッド・ラーニング・パワード・コネクテッド・オートモービル(FLCAV)が提案されている。
FLCAVは通信とアノテーションのコストを削減しながらプライバシを保存する。
マルチステージトレーニングのためのネットワークリソースと道路センサのポーズを決定することは困難である。
論文 参考訳(メタデータ) (2022-06-03T23:55:45Z) - Structured Bird's-Eye-View Traffic Scene Understanding from Onboard
Images [128.881857704338]
本研究では,BEV座標における局所道路網を表す有向グラフを,単眼カメラ画像から抽出する問題について検討する。
提案手法は,BEV平面上の動的物体を検出するために拡張可能であることを示す。
我々は、強力なベースラインに対するアプローチを検証するとともに、ネットワークが優れたパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-10-05T12:40:33Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z) - Connecting Language and Vision for Natural Language-Based Vehicle
Retrieval [77.88818029640977]
本稿では,言語記述という新たなモダリティを,興味ある車両の探索に適用する。
言語と視覚を結びつけるために,トランスフォーマーに基づく言語モデルを用いて最先端の視覚モデルを共同で訓練することを提案する。
提案手法は第5回AIシティチャレンジで1位を獲得し、18.69%のMRRの精度で競争性能を得た。
論文 参考訳(メタデータ) (2021-05-31T11:42:03Z) - Increasing the Efficiency of Policy Learning for Autonomous Vehicles by
Multi-Task Representation Learning [17.825845543579195]
関連する意味的要因の知識を活用し,環境の低次元かつ豊かな潜在表現を学ぶことを提案する。
また,ダウンストリームポリシの入力として,学習した潜在表現に加えて,ハザード信号を提案する。
特に、提案された表現学習とハザード信号は、ベースラインメソッドよりもパフォーマンスの向上とデータの削減により、学習の学習を迅速に強化するのに役立ちます。
論文 参考訳(メタデータ) (2021-03-26T20:16:59Z) - Autonomous Navigation through intersections with Graph
ConvolutionalNetworks and Conditional Imitation Learning for Self-driving
Cars [10.080958939027363]
自動運転では、信号のない交差点を通るナビゲーションは難しい作業だ。
ナビゲーションポリシー学習のための新しい分岐ネットワークG-CILを提案する。
エンドツーエンドのトレーニング可能なニューラルネットワークは、より高い成功率と短いナビゲーション時間でベースラインを上回っています。
論文 参考訳(メタデータ) (2021-02-01T07:33:12Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。