論文の概要: PreGSU-A Generalized Traffic Scene Understanding Model for Autonomous Driving based on Pre-trained Graph Attention Network
- arxiv url: http://arxiv.org/abs/2404.10263v1
- Date: Tue, 16 Apr 2024 03:34:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:12:17.421060
- Title: PreGSU-A Generalized Traffic Scene Understanding Model for Autonomous Driving based on Pre-trained Graph Attention Network
- Title(参考訳): PreGSU-A 事前学習グラフ注意ネットワークに基づく自律走行のための一般化交通シーン理解モデル
- Authors: Yuning Wang, Zhiyuan Liu, Haotian Lin, Junkai Jiang, Shaobing Xu, Jianqiang Wang,
- Abstract要約: 交通要素間の相互作用の学習、抽出、表現として定義されたシーン理解は、ハイレベル自律運転(AD)における重要な課題の1つである。
現在のシーン理解手法は主に、軌道予測やリスクレベル評価などの1つの具体的な単一タスクに焦点を当てている。
グラフアテンションネットワークに基づく一般化された事前学習シーン理解モデルであるPreGSUを提案し、様々な下流タスクをサポートするために、交通シーンの普遍的相互作用と推論を学習する。
- 参考スコア(独自算出の注目度): 23.38434020807342
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene understanding, defined as learning, extraction, and representation of interactions among traffic elements, is one of the critical challenges toward high-level autonomous driving (AD). Current scene understanding methods mainly focus on one concrete single task, such as trajectory prediction and risk level evaluation. Although they perform well on specific metrics, the generalization ability is insufficient to adapt to the real traffic complexity and downstream demand diversity. In this study, we propose PreGSU, a generalized pre-trained scene understanding model based on graph attention network to learn the universal interaction and reasoning of traffic scenes to support various downstream tasks. After the feature engineering and sub-graph module, all elements are embedded as nodes to form a dynamic weighted graph. Then, four graph attention layers are applied to learn the relationships among agents and lanes. In the pre-train phase, the understanding model is trained on two self-supervised tasks: Virtual Interaction Force (VIF) modeling and Masked Road Modeling (MRM). Based on the artificial potential field theory, VIF modeling enables PreGSU to capture the agent-to-agent interactions while MRM extracts agent-to-road connections. In the fine-tuning process, the pre-trained parameters are loaded to derive detailed understanding outputs. We conduct validation experiments on two downstream tasks, i.e., trajectory prediction in urban scenario, and intention recognition in highway scenario, to verify the generalized ability and understanding ability. Results show that compared with the baselines, PreGSU achieves better accuracy on both tasks, indicating the potential to be generalized to various scenes and targets. Ablation study shows the effectiveness of pre-train task design.
- Abstract(参考訳): 交通要素間の相互作用の学習、抽出、表現として定義されたシーン理解は、ハイレベル自律運転(AD)に対する重要な課題の1つである。
現在のシーン理解手法は主に、軌道予測やリスクレベル評価などの1つの具体的な単一タスクに焦点を当てている。
特定のメトリクスでうまく機能するが、実際のトラフィックの複雑さや下流の需要の多様性に適応するには一般化能力が不十分である。
本研究では,グラフアテンションネットワークに基づく一般化された事前学習シーン理解モデルであるPreGSUを提案する。
機能エンジニアリングとサブグラフモジュールの後、すべての要素をノードとして埋め込み、動的重み付きグラフを形成する。
次に、4つのグラフ注意層を適用してエージェントとレーンの関係を学習する。
列車前段階では、理解モデルは仮想相互作用力(VIF)モデリングとマスケッド・ロード・モデリング(MRM)という2つの自己教師型タスクに基づいて訓練される。
人工電位場理論に基づいて、VIFモデリングにより、PreGSUはエージェント間相互作用をキャプチャし、MRMはエージェント間接続を抽出する。
微調整プロセスでは、事前訓練されたパラメータをロードして詳細な理解出力を導出する。
本研究では,都市シナリオにおける軌道予測と高速道路シナリオにおける意図認識という2つの下流タスクに対する検証実験を行い,その一般化能力と理解能力を検証する。
その結果,PreGSUはベースラインと比較して,両タスクの精度が向上し,様々なシーンやターゲットに一般化できる可能性が示唆された。
アブレーション研究はプレトレイン・タスク・デザインの有効性を示している。
関連論文リスト
- SemanticFormer: Holistic and Semantic Traffic Scene Representation for Trajectory Prediction using Knowledge Graphs [3.733790302392792]
自動運転におけるトレイ予測は、運転シーンのすべての関連状況の正確な表現に依存している。
本稿では,交通シーングラフの推論によるマルチモーダル軌道の予測手法であるSemanticFormerを提案する。
論文 参考訳(メタデータ) (2024-04-30T09:11:04Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - SEPT: Towards Efficient Scene Representation Learning for Motion
Prediction [19.111948522155004]
本稿では,自己教師付き学習を活用し,複雑な交通シーンのための強力なモデルを開発するためのモデリングフレームワークSEPTを提案する。
実験により、SEPTはアーキテクチャ設計や機能エンジニアリングを伴わず、Argoverse 1 と Argoverse 2 のモーション予測ベンチマークで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2023-09-26T21:56:03Z) - Unsupervised Self-Driving Attention Prediction via Uncertainty Mining
and Knowledge Embedding [51.8579160500354]
本研究では、不確実性モデリングと知識統合の駆動による自動運転の注意を予測できる教師なし手法を提案する。
結果は、完全に教師された最先端のアプローチと比較して、同等またはさらに印象的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2023-03-17T00:28:33Z) - Towards Explainable Motion Prediction using Heterogeneous Graph
Representations [3.675875935838632]
動き予測システムは、自動運転車が安全かつ効率的な計画を実行できるようにする交通シナリオの将来の挙動を捉えることを目的としている。
GNNベースのアプローチは、これらの相互作用を自然にモデル化するのに適しているため、近年注目を集めている。
本研究では,異なるアプローチを用いて動作予測システムの説明可能性を向上させることを目的とする。
論文 参考訳(メタデータ) (2022-12-07T17:43:42Z) - RSG-Net: Towards Rich Sematic Relationship Prediction for Intelligent
Vehicle in Complex Environments [72.04891523115535]
本稿では,オブジェクトの提案から潜在的意味関係を予測するグラフ畳み込みネットワークRSG-Netを提案する。
実験の結果、このネットワークはロードシーングラフデータセットに基づいてトレーニングされており、エゴ車両周辺のオブジェクト間の潜在的な意味関係を効率的に予測できることがわかった。
論文 参考訳(メタデータ) (2022-07-16T12:40:17Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Interaction-Based Trajectory Prediction Over a Hybrid Traffic Graph [4.574413934477815]
本稿では,トラフィックアクタと静的および動的トラフィック要素の両方をノードが表現するハイブリッドグラフを提案する。
アクターとトラフィック要素間の時間的相互作用(例えば、停止と移動)の異なるモードは、グラフエッジによって明示的にモデル化される。
提案するモデルであるTrafficGraphNetは,高いレベルの解釈性を維持しつつ,最先端の軌道予測精度を実現する。
論文 参考訳(メタデータ) (2020-09-27T18:20:03Z) - Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。
我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文 参考訳(メタデータ) (2020-07-23T14:31:25Z) - Scenario-Transferable Semantic Graph Reasoning for Interaction-Aware
Probabilistic Prediction [29.623692599892365]
交通参加者の行動の正確な予測は、自動運転車にとって必須の能力である。
本稿では, セマンティクスとドメイン知識を活かして, 様々な運転環境に対する新しい汎用表現を提案する。
論文 参考訳(メタデータ) (2020-04-07T00:34:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。