論文の概要: Talk2DM: Enabling Natural Language Querying and Commonsense Reasoning for Vehicle-Road-Cloud Integrated Dynamic Maps with Large Language Models
- arxiv url: http://arxiv.org/abs/2602.11860v1
- Date: Thu, 12 Feb 2026 12:06:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.79678
- Title: Talk2DM: Enabling Natural Language Querying and Commonsense Reasoning for Vehicle-Road-Cloud Integrated Dynamic Maps with Large Language Models
- Title(参考訳): Talk2DM:大規模言語モデルを用いた車載クラウド統合動的マップのための自然言語クエリとコモンセンス推論の実現
- Authors: Lu Tao, Jinxuan Luo, Yousuke Watanabe, Zhengshu Zhou, Yuhuan Lu, Shen Ying, Pan Zhang, Fei Zhao, Hiroaki Takada,
- Abstract要約: 本稿では、ストリーミングVRC-CPデータを生成するために設計されたVRC協調認識(CP)シミュレーションフレームワークであるVRCsimを紹介する。
NLSクエリとコモンセンス推論機能を備えたVRC-DMシステムを拡張するプラグイン・アンド・プレイモジュールであるTalk2DMを提案する。
- 参考スコア(独自算出の注目度): 14.804907028775943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic maps (DM) serve as the fundamental information infrastructure for vehicle-road-cloud (VRC) cooperative autonomous driving in China and Japan. By providing comprehensive traffic scene representations, DM overcome the limitations of standalone autonomous driving systems (ADS), such as physical occlusions. Although DM-enhanced ADS have been successfully deployed in real-world applications in Japan, existing DM systems still lack a natural-language-supported (NLS) human interface, which could substantially enhance human-DM interaction. To address this gap, this paper introduces VRCsim, a VRC cooperative perception (CP) simulation framework designed to generate streaming VRC-CP data. Based on VRCsim, we construct a question-answering data set, VRC-QA, focused on spatial querying and reasoning in mixed-traffic scenes. Building upon VRCsim and VRC-QA, we further propose Talk2DM, a plug-and-play module that extends VRC-DM systems with NLS querying and commonsense reasoning capabilities. Talk2DM is built upon a novel chain-of-prompt (CoP) mechanism that progressively integrates human-defined rules with the commonsense knowledge of large language models (LLMs). Experiments on VRC-QA show that Talk2DM can seamlessly switch across different LLMs while maintaining high NLS query accuracy, demonstrating strong generalization capability. Although larger models tend to achieve higher accuracy, they incur significant efficiency degradation. Our results reveal that Talk2DM, powered by Qwen3:8B, Gemma3:27B, and GPT-oss models, achieves over 93\% NLS query accuracy with an average response time of only 2-5 seconds, indicating strong practical potential.
- Abstract(参考訳): ダイナミックマップ(DM)は,中国と日本における自動車道路クラウド(VRC)協調運転の基本的な情報基盤として機能する。
交通シーンを包括的に表現することで、DMは物理的閉塞のような独立自律運転システム(ADS)の限界を克服する。
DM強化型ADSは, 実世界の応用に成功しているが, 既存のDMシステムは, 人-DMインタラクションを大幅に向上させる自然言語対応(NLS)のヒューマンインタフェースを欠いている。
このギャップに対処するために,VRC-CPデータを生成するために設計されたVRC協調認識(CP)シミュレーションフレームワークであるVRCsimを紹介する。
そこで,VRCsimをベースとした質問応答データセットVRC-QAを構築した。
さらに,VRCsimとVRC-QAをベースとして,NLSクエリと常識推論機能を備えたVRC-DMシステムを拡張するプラグイン・アンド・プレイモジュールであるTalk2DMを提案する。
Talk2DMは、人間の定義したルールを大規模言語モデル(LLM)の常識知識と段階的に統合する新しいチェーン・オブ・プロンプト(CoP)メカニズムに基づいている。
VRC-QAの実験では、Talk2DMは高いNLSクエリ精度を維持しながら異なるLSMをシームレスに切り替えることができ、強力な一般化能力を示している。
より大きなモデルは高い精度を達成する傾向にあるが、大きな効率劣化を引き起こす。
Qwen3:8B, Gemma3:27B, GPT-ossモデルを用いたTalk2DMは, 平均応答時間2~5秒で93%以上のNLSクエリ精度を実現し, 高い実用可能性を示した。
関連論文リスト
- HetroD: A High-Fidelity Drone Dataset and Benchmark for Autonomous Driving in Heterogeneous Traffic [49.31491001465465]
HetroDは、異種環境で自律走行システムを開発するためのデータセットとベンチマークである。
HetroDは、VRU(vulner- able road users)が支配する現実の異種交通のナビゲーティングにおける重要な課題をターゲットにしている。
論文 参考訳(メタデータ) (2026-02-03T12:12:47Z) - dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。
nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文 参考訳(メタデータ) (2025-12-04T05:05:41Z) - RadarLLM: Empowering Large Language Models to Understand Human Motion from Millimeter-wave Point Cloud Sequence [10.115852646162843]
本稿では、ミリ波レーダをセンシングモードとして用いた人間の理解に大規模言語モデル(LLM)を利用する最初のフレームワークであるRadar-LLMを提案する。
データ不足に対処するために、モーションテキストデータセットからリアルなレーダテキストペアを生成する物理対応パイプライン合成を導入する。
Radar-LLMは、合成および実世界のベンチマークの両方で最先端のパフォーマンスを実現し、ミリ波信号の自然言語記述への正確な変換を可能にする。
論文 参考訳(メタデータ) (2025-04-14T04:18:25Z) - Towards Intelligent Transportation with Pedestrians and Vehicles In-the-Loop: A Surveillance Video-Assisted Federated Digital Twin Framework [62.47416496137193]
本稿では,歩行者や車いすによるITSを支援するための監視ビデオ支援型デジタルツイン(SV-FDT)フレームワークを提案する。
i)複数のソースからトラフィック監視ビデオを収集するエンドレイヤ、(ii)セマンティックセグメンテーションに基づく視覚理解、ツインエージェントベースのインタラクションモデリング、およびローカルデジタルツインシステム(LDTS)をローカルで作成するエッジレイヤ、(iii)異なるリージョンにわたるLDTSを統合してグローバルDTモデルをリアルタイムで構築するクラウドレイヤの3層で構成されている。
論文 参考訳(メタデータ) (2025-03-06T07:36:06Z) - Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。
インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。
本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-23T20:42:15Z) - Joint Adaptive OFDM and Reinforcement Learning Design for Autonomous Vehicles: Leveraging Age of Updates [2.607046313483251]
ミリ波を用いた周波数分割多重化(OFDM)は高分解能センシングと高速データ伝送に適した代替手段である。
本研究では,AVがキュー状態情報(QSI)とチャネル状態情報(CSI)を,通信とセンシングを管理するための強化学習技術とともに利用する自律走行車ネットワークについて考察する。
論文 参考訳(メタデータ) (2024-12-24T15:32:58Z) - Semantic-Aware Resource Management for C-V2X Platooning via Multi-Agent Reinforcement Learning [41.8826976666953]
セルラー車間通信(C-V2X)に基づく自律車小隊システムに意味コミュニケーションを導入する。
本稿では,SAMRAMARLと呼ばれるマルチエージェント強化学習(MARL)に基づく,分散意味認識型マルチモーダルリソースアロケーション(SAMRA)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T12:55:35Z) - MetaSSC: Enhancing 3D Semantic Scene Completion for Autonomous Driving through Meta-Learning and Long-sequence Modeling [3.139165705827712]
セマンティックシーン補完(SSC)のためのメタラーニングに基づく新しいフレームワークであるMetaSSCを紹介する。
我々のアプローチは、不完全領域のセマンティックスと幾何学を探求することを目的とした、ボクセルに基づくセマンティックセマンティックセマンティクス(SS)事前訓練タスクから始まる。
シミュレーションされた協調認識データセットを用いて、集約されたセンサデータを用いて1台の車両の知覚訓練を監督する。
このメタ知識は、二重フェーズのトレーニング戦略を通じてターゲットドメインに適応し、効率的なデプロイメントを可能にする。
論文 参考訳(メタデータ) (2024-11-06T05:11:25Z) - DriveMLM: Aligning Multi-Modal Large Language Models with Behavioral
Planning States for Autonomous Driving [69.82743399946371]
DriveMLMは、現実的なシミュレータでクローズループの自律運転を実行するためのフレームワークである。
モジュールADシステムの動作計画モジュールをモデル化するために,MLLM (Multi-modal LLM) を用いる。
このモデルは、Apolloのような既存のADシステムでプラグイン・アンド・プレイすることで、クローズループ運転を行うことができる。
論文 参考訳(メタデータ) (2023-12-14T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。