論文の概要: Predicting the Road Ahead: A Knowledge Graph based Foundation Model for Scene Understanding in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2503.18730v1
- Date: Mon, 24 Mar 2025 14:38:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:13.487187
- Title: Predicting the Road Ahead: A Knowledge Graph based Foundation Model for Scene Understanding in Autonomous Driving
- Title(参考訳): 自動運転におけるシーン理解のための知識グラフに基づく基礎モデル
- Authors: Hongkuan Zhou, Stefan Schmid, Yicong Li, Lavdim Halilaj, Xiangtong Yao, Wei cao,
- Abstract要約: 本稿では,自動運転におけるシーン理解のための象徴的基礎モデル(FM)の学習手法であるFM4SUを提案する。
知識グラフ(KG)を活用して、道路トポロジや交通規則、交通参加者間の複雑な相互作用といったドメイン知識とともに、感覚観察をキャプチャする。
その結果、細調整されたモデルでは全てのタスクにおいて精度が大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 16.94669292450282
- License:
- Abstract: The autonomous driving field has seen remarkable advancements in various topics, such as object recognition, trajectory prediction, and motion planning. However, current approaches face limitations in effectively comprehending the complex evolutions of driving scenes over time. This paper proposes FM4SU, a novel methodology for training a symbolic foundation model (FM) for scene understanding in autonomous driving. It leverages knowledge graphs (KGs) to capture sensory observation along with domain knowledge such as road topology, traffic rules, or complex interactions between traffic participants. A bird's eye view (BEV) symbolic representation is extracted from the KG for each driving scene, including the spatio-temporal information among the objects across the scenes. The BEV representation is serialized into a sequence of tokens and given to pre-trained language models (PLMs) for learning an inherent understanding of the co-occurrence among driving scene elements and generating predictions on the next scenes. We conducted a number of experiments using the nuScenes dataset and KG in various scenarios. The results demonstrate that fine-tuned models achieve significantly higher accuracy in all tasks. The fine-tuned T5 model achieved a next scene prediction accuracy of 86.7%. This paper concludes that FM4SU offers a promising foundation for developing more comprehensive models for scene understanding in autonomous driving.
- Abstract(参考訳): 自律運転分野は、物体認識、軌道予測、運動計画など、様々なトピックにおいて顕著な進歩を見せている。
しかし、現在のアプローチは、時間の経過とともに駆動シーンの複雑な進化を効果的に理解するための制限に直面している。
本稿では,自動運転におけるシーン理解のための象徴的基礎モデル(FM)を訓練するための新しい手法であるFM4SUを提案する。
知識グラフ(KG)を活用して、道路トポロジや交通規則、交通参加者間の複雑な相互作用といったドメイン知識とともに、感覚観察をキャプチャする。
走行シーン毎のKGから鳥の目視(BEV)シンボル表現を抽出し、シーンを横断する物体間の時空間情報を含む。
BEV表現は一連のトークンにシリアライズされ、事前訓練された言語モデル(PLM)に与えられ、駆動シーン要素間の共起の固有の理解を学び、次のシーンで予測を生成する。
様々なシナリオでnuScenesデータセットとKGを用いて多数の実験を行った。
その結果、細調整されたモデルでは全てのタスクにおいて精度が大幅に向上することが示された。
微調整されたT5モデルは次のシーン予測精度86.7%を達成した。
本稿では、FM4SUが、自動運転におけるシーン理解のためのより包括的なモデルを開発するための有望な基盤を提供すると結論付けている。
関連論文リスト
- HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation [59.675030933810106]
我々はHERMESという統合運転世界モデルを提案する。
シナリオを駆動する統合フレームワークを通じて、3Dシーン理解と将来のシーン進化(世代)をシームレスに統合する。
HERMESは最先端のパフォーマンスを実現し、生成エラーを32.4%削減し、CIDErなどの理解基準を8.0%改善した。
論文 参考訳(メタデータ) (2025-01-24T18:59:51Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - PreGSU-A Generalized Traffic Scene Understanding Model for Autonomous Driving based on Pre-trained Graph Attention Network [23.38434020807342]
交通要素間の相互作用の学習、抽出、表現として定義されたシーン理解は、ハイレベル自律運転(AD)における重要な課題の1つである。
現在のシーン理解手法は主に、軌道予測やリスクレベル評価などの1つの具体的な単一タスクに焦点を当てている。
グラフアテンションネットワークに基づく一般化された事前学習シーン理解モデルであるPreGSUを提案し、様々な下流タスクをサポートするために、交通シーンの普遍的相互作用と推論を学習する。
論文 参考訳(メタデータ) (2024-04-16T03:34:35Z) - Video Killed the HD-Map: Predicting Multi-Agent Behavior Directly From
Aerial Images [14.689298253430568]
本稿では,最小限のアノテーションを必要とする航空画像ベースマップ(AIM)の表現を提案し,歩行者や車両などの交通機関に道路状況情報を提供する。
以上の結果から,特にAIM表現を用いた歩行者の競合的マルチエージェント軌道予測性能が示された。
論文 参考訳(メタデータ) (2023-05-19T17:48:01Z) - Street-View Image Generation from a Bird's-Eye View Layout [95.36869800896335]
近年,Bird's-Eye View (BEV) の知覚が注目されている。
自動運転のためのデータ駆動シミュレーションは、最近の研究の焦点となっている。
本稿では,現実的かつ空間的に一貫した周辺画像を合成する条件生成モデルであるBEVGenを提案する。
論文 参考訳(メタデータ) (2023-01-11T18:39:34Z) - Policy Pre-training for End-to-end Autonomous Driving via
Self-supervised Geometric Modeling [96.31941517446859]
PPGeo (Policy Pre-training via Geometric Modeling) は,視覚運動運転における政策事前学習のための,直感的かつ直接的な完全自己教師型フレームワークである。
本研究では,大規模な未ラベル・未校正動画の3次元幾何学シーンをモデル化することにより,ポリシー表現を強力な抽象化として学習することを目的とする。
第1段階では、幾何モデリングフレームワークは、2つの連続したフレームを入力として、ポーズと深さの予測を同時に生成する。
第2段階では、視覚エンコーダは、将来のエゴモーションを予測し、現在の視覚観察のみに基づいて測光誤差を最適化することにより、運転方針表現を学習する。
論文 参考訳(メタデータ) (2023-01-03T08:52:49Z) - SceneGen: Learning to Generate Realistic Traffic Scenes [92.98412203941912]
私たちは、ルールと分布の必要性を緩和するトラフィックシーンのニューラルオートレグレッシブモデルであるSceneGenを紹介します。
実トラフィックシーンの分布を忠実にモデル化するSceneGenの能力を実証する。
論文 参考訳(メタデータ) (2021-01-16T22:51:43Z) - Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。
我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文 参考訳(メタデータ) (2020-07-23T14:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。