論文の概要: GraphPilot: Grounded Scene Graph Conditioning for Language-Based Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.11266v1
- Date: Fri, 14 Nov 2025 12:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.612791
- Title: GraphPilot: Grounded Scene Graph Conditioning for Language-Based Autonomous Driving
- Title(参考訳): GraphPilot: 言語ベースの自律運転のための接地型シーングラフコンディショニング
- Authors: Fabian Schmidt, Markus Enzweiler, Abhinav Valada,
- Abstract要約: ビジョン言語モデルは、自動運転のための有望なプランナーとして登場した。
モデルは通常、リレーショナル依存関係を明示的にエンコードする監督なしにトレーニングされる。
本稿では,交通シーングラフの形式で構造化された関係文脈上で,言語に基づく運転モデルを記述する新しいモデル非依存手法を提案する。
- 参考スコア(独自算出の注目度): 16.932009464531735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models have recently emerged as promising planners for autonomous driving, where success hinges on topology-aware reasoning over spatial structure and dynamic interactions from multimodal input. However, existing models are typically trained without supervision that explicitly encodes these relational dependencies, limiting their ability to infer how agents and other traffic entities influence one another from raw sensor data. In this work, we bridge this gap with a novel model-agnostic method that conditions language-based driving models on structured relational context in the form of traffic scene graphs. We serialize scene graphs at various abstraction levels and formats, and incorporate them into the models via structured prompt templates, enabling a systematic analysis of when and how relational supervision is most beneficial. Extensive evaluations on the public LangAuto benchmark show that scene graph conditioning of state-of-the-art approaches yields large and persistent improvement in driving performance. Notably, we observe up to a 15.6\% increase in driving score for LMDrive and 17.5\% for BEVDriver, indicating that models can better internalize and ground relational priors through scene graph-conditioned training, even without requiring scene graph input at test-time. Code, fine-tuned models, and our scene graph dataset are publicly available at https://github.com/iis-esslingen/GraphPilot.
- Abstract(参考訳): 最近、視覚言語モデルは自律運転のための有望なプランナーとして登場し、成功は空間構造に対するトポロジーを考慮した推論とマルチモーダル入力からの動的相互作用に依存している。
しかしながら、既存のモデルは通常、これらのリレーショナル依存関係を明示的にエンコードする監督なしでトレーニングされ、エージェントや他のトラフィックエンティティが生のセンサーデータから相互にどのように影響するかを推測する能力を制限する。
本研究では、このギャップを交通シーングラフの形で構造化された関係文脈上で言語ベースの駆動モデルを条件付ける新しいモデルに依存しない手法で埋める。
シーングラフを様々な抽象化レベルとフォーマットでシリアライズし、構造化されたプロンプトテンプレートを介してモデルに組み込むことで、いつ、どのようにリレーショナル監視が最も有益であるかを体系的に分析することができる。
パブリックなLangAutoベンチマークの大規模な評価は、最先端アプローチのシーングラフ条件付けによって、駆動性能が大きく、永続的に向上することを示している。
特に,LMDriveの駆動スコアが最大15.6\%増加し,BEVDriverの17.5\%が増加し,テスト時にシーングラフ入力を必要とせずとも,シーングラフ条件でトレーニングすることで,モデルの内部化や地中リレーショナルの事前処理を改善できることが示唆された。
コード、微調整されたモデル、シーングラフデータセットはhttps://github.com/iis-esslingen/GraphPilot.orgで公開されています。
関連論文リスト
- An Automatic Graph Construction Framework based on Large Language Models for Recommendation [49.51799417575638]
本稿では,大規模言語モデルに基づく自動グラフ構築フレームワークであるAutoGraphを紹介する。
LLMはユーザ好みとアイテムの知識を推論し、セマンティックベクターとして符号化する。
潜在因子は、ユーザ/イテムノードをリンクする余分なノードとして組み込まれ、結果として、深いグローバルビューセマンティクスを持つグラフとなる。
論文 参考訳(メタデータ) (2024-12-24T07:51:29Z) - GraphAD: Interaction Scene Graph for End-to-end Autonomous Driving [16.245949174447574]
我々は,エゴ車両,道路エージェント,地図要素間の相互作用をモデル化するための統合手法として,インタラクションシーングラフ(ISG)を提案する。
提案手法をnuScenesデータセット上で評価した。
論文 参考訳(メタデータ) (2024-03-28T02:22:28Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - FollowNet: A Comprehensive Benchmark for Car-Following Behavior Modeling [20.784555362703294]
自動車追従行動モデリングのための公開ベンチマークデータセットを構築した。
ベンチマークは、5つの公共運転データセットから抽出された80K以上のカーフォローイベントで構成されている。
以上の結果から, DDPGに基づくモデルでは, 間隔の低いMSEと競合する結果が得られた。
論文 参考訳(メタデータ) (2023-05-25T08:59:26Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。