Fugu-MT 論文翻訳(概要): KLDrive: Fine-Grained 3D Scene Reasoning for Autonomous Driving based on Knowledge Graph

論文の概要: KLDrive: Fine-Grained 3D Scene Reasoning for Autonomous Driving based on Knowledge Graph

arxiv url: http://arxiv.org/abs/2603.21029v1
Date: Sun, 22 Mar 2026 02:54:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.197364
Title: KLDrive: Fine-Grained 3D Scene Reasoning for Autonomous Driving based on Knowledge Graph
Title（参考訳）: KLDrive:知識グラフに基づく自動運転のためのファイングラインド3Dシーン推論
Authors: Ye Tian, Jingyi Zhang, Zihao Wang, Xiaoyuan Ren, Xiaofan Yu, Onat Gungor, Tajana Rosing,
Abstract要約: 我々は、自律運転におけるきめ細かい質問応答のための知識グラフ強化推論フレームワークであるKLDriveを紹介する。 2つの大規模自動運転QAベンチマークの実験では、KLDriveは最先端の手法よりも優れていた。
参考スコア（独自算出の注目度）: 25.02776738838925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autonomous driving requires reliable reasoning over fine-grained 3D scene facts. Fine-grained question answering over multi-modal driving observations provides a natural way to evaluate this capability, yet existing perception pipelines and driving-oriented large language model (LLM) methods still suffer from unreliable scene facts, hallucinations, opaque reasoning, and heavy reliance on task-specific training. We present KLDrive, the first knowledge-graph-augmented LLM reasoning framework for fine-grained question answering in autonomous driving. KLDrive addresses this problem through designing two tightly coupled components: an energy-based scene fact construction module that consolidates multi-source evidence into a reliable scene knowledge graph, and an LLM agent that performs fact-grounded reasoning over a constrained action space under explicit structural constraints. By combining structured prompting with few-shot in-context exemplars, the framework adapts to diverse reasoning tasks without heavy task-specific fine-tuning. Experiments on two large-scale autonomous-driving QA benchmarks show that KLDrive outperforms prior state-of-the-art methods, achieving the best overall accuracy of 65.04% on NuScenes-QA and the best SPICE score of 42.45 on GVQA. On counting, the most challenging factual reasoning task, it improves over the strongest baseline by 46.01 percentage points, demonstrating substantially reduced hallucinations and the benefit of coupling reliable scene fact construction with explicit reasoning.
Abstract（参考訳）: 自律運転には、きめ細かい3Dシーンの事実に対する信頼性の高い推論が必要である。マルチモーダル運転観察に対するきめ細かい質問応答は、この能力を評価する自然な方法を提供するが、既存の知覚パイプラインと駆動指向の大規模言語モデル(LLM)メソッドは、依然として信頼性の低いシーン事実、幻覚、不透明な推論、タスク固有のトレーニングに大きく依存している。我々は、自律運転におけるきめ細かい質問応答のための知識グラフ強化LDM推論フレームワークであるKLDriveを紹介する。 KLDriveは、複数の情報源の証拠を信頼性のあるシーン知識グラフに統合するエネルギーベースのシーンファクト構築モジュールと、明示的な構造制約の下で制約されたアクション空間上のファクトグラウンド推論を行うLCMエージェントという2つの密結合されたコンポーネントを設計することでこの問題に対処する。構造化プロンプトと数発のコンテキスト内例を組み合わせることで、このフレームワークはタスク固有の微調整を伴わずに多様な推論タスクに適応する。 2つの大規模自動運転QAベンチマークの実験では、KLDriveは最先端の手法よりも優れており、NuScenes-QAでは65.04%、GVQAでは42.45のSPICEスコアを達成している。最も困難な事実推論タスクであるカウントでは、最強の基準点を46.01ポイント以上改善し、幻覚を著しく減らし、明確な推論を伴う信頼性のあるシーン事実構築の利点を示す。

関連論文リスト

DriveCombo: Benchmarking Compositional Traffic Rule Reasoning in Autonomous Driving [34.19974984127512]
合成トラフィックルール推論のためのテキストベースのベンチマークであるDriveComboを提案する。人間のドライバの認知発達に触発されて,系統的な5レベル認知層を提案する。また,言語ベースの交通ルールを動的運転シーンにマッピングするルール2Scene Agentを提案する。
論文参考訳（メタデータ） (2026-03-02T09:12:40Z)
OmniDrive-R1: Reinforcement-driven Interleaved Multi-modal Chain-of-Thought for Trustworthy Vision-Language Autonomous Driving [11.793091014248025]
我々は自動運転用に設計されたエンドツーエンドのVLMフレームワークであるOmniDrive-R1を紹介する。私たちの中心となるイノベーションは、強化駆動のビジュアルグラウンド機能です。この機能は、純粋な2段階強化学習訓練パイプラインとClip-GRPOアルゴリズムによって実現されている。
論文参考訳（メタデータ） (2025-12-16T03:19:28Z)
CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving [10.836513600206118]
我々は、視覚言語モデル(VLM)における数値推論と因果推論の両方を強化するために、自律運転のためのチェーン・オブ・ソート(CoT)推論を提案する。 CoT4ADは視覚的な観察と言語命令を統合し、セマンティック推論、シーン理解、軌道計画を実行する。 nuScenesやBench2Driveなど、実世界のベンチマークとシミュレーションベンチマークの両方の実験は、CoT4ADがオープンループとクローズループの両方で最先端のパフォーマンスを達成することを実証している。
論文参考訳（メタデータ） (2025-11-27T15:13:13Z)
A Fano-Style Accuracy Upper Bound for LLM Single-Pass Reasoning in Multi-Hop QA [65.38186593873313]
MHQA(Multi-Hop Question Answering)は、ノイズ下でのシーケンシャルな推論を通じて、分散した相互依存的な証拠を統合する必要がある。我々はMHQAのための概念実証マルチコールフレームワークをInfoQAで紹介する。我々は、理論とフレームワークを検証するために、厳密で騒音に富んだベンチマークを構築した。
論文参考訳（メタデータ） (2025-09-25T14:11:57Z)
DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving [22.293019898794963]
我々は,4つのコアタスク上の構造化推論プロセスとして,自律運転を定式化する統合トレーニングフレームワークであるAutoDriveRLを提案する。このフレームワーク内では、リアルタイム意思決定用に設計されたクロスタスク推論VLMであるDriveRXを訓練する。本分析は,視覚エンコーダ設計と報酬誘導推論圧縮の影響を明らかにする。
論文参考訳（メタデータ） (2025-05-27T03:21:04Z)
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文参考訳（メタデータ） (2025-03-13T17:59:01Z)
Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文参考訳（メタデータ） (2025-01-08T18:31:16Z)
STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文参考訳（メタデータ） (2024-11-29T11:54:55Z)
Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving [55.609997552148826]
Hints of Prompt (HoP) フレームワークを提案する。これらのヒントはHint Fusionモジュールを通じて融合され、限られたドメインデータで駆動関連表現をキャプチャすることで視覚表現を豊かにする。大規模な実験により、HoPフレームワークの有効性が確認され、すべての主要な指標において、従来の最先端メソッドよりも大幅に優れていることが示されている。
論文参考訳（メタデータ） (2024-11-20T06:58:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。