論文の概要: World knowledge-enhanced Reasoning Using Instruction-guided Interactor in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2412.06324v2
- Date: Thu, 12 Dec 2024 01:48:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-13 13:32:54.411494
- Title: World knowledge-enhanced Reasoning Using Instruction-guided Interactor in Autonomous Driving
- Title(参考訳): 自律運転におけるインストラクション誘導インターエータを用いた世界知識強調推論
- Authors: Mingliang Zhai, Cheng Li, Zengyuan Guo, Ningrui Yang, Xiameng Qin, Yuwei Wu, Sanyuan Zhao, Junyu Han, Ji Tao, Yunde Jia,
- Abstract要約: 本研究では,認識条件下での自律走行性能向上を目的としたフレームワークを提案する。
具体的には,モダリティギャップを埋めるプラグアンドプレイ方式の対話モジュールを提案する。
運転関連タスクと世界の知識をよりよく統合するために、我々は大規模なマルチモーダルデータセットを収集し、洗練しました。
- 参考スコア(独自算出の注目度): 39.153593828318215
- License:
- Abstract: The Multi-modal Large Language Models (MLLMs) with extensive world knowledge have revitalized autonomous driving, particularly in reasoning tasks within perceivable regions. However, when faced with perception-limited areas (dynamic or static occlusion regions), MLLMs struggle to effectively integrate perception ability with world knowledge for reasoning. These perception-limited regions can conceal crucial safety information, especially for vulnerable road users. In this paper, we propose a framework, which aims to improve autonomous driving performance under perceptionlimited conditions by enhancing the integration of perception capabilities and world knowledge. Specifically, we propose a plug-and-play instruction-guided interaction module that bridges modality gaps and significantly reduces the input sequence length, allowing it to adapt effectively to multi-view video inputs. Furthermore, to better integrate world knowledge with driving-related tasks, we have collected and refined a large-scale multi-modal dataset that includes 2 million natural language QA pairs, 1.7 million grounding task data. To evaluate the model's utilization of world knowledge, we introduce an object-level risk assessment dataset comprising 200K QA pairs, where the questions necessitate multi-step reasoning leveraging world knowledge for resolution. Extensive experiments validate the effectiveness of our proposed method.
- Abstract(参考訳): 広い世界知識を持つ多モード大規模言語モデル(MLLM)は、特に知覚可能な領域内でのタスクの推論において、自動運転を再活性化している。
しかし、知覚に制限のある領域(動的または静的なオクルージョン領域)に直面すると、MLLMは推論のための世界知識と知覚能力を効果的に統合するのに苦労する。
これらの知覚に制限のある地域は、特に脆弱な道路利用者にとって重要な安全情報を隠蔽することができる。
本稿では,知覚能力と世界知識の統合性を高めることにより,知覚条件下での自律走行性能の向上を目的としたフレームワークを提案する。
具体的には、モダリティギャップをブリッジし、入力シーケンス長を大幅に削減し、マルチビュービデオ入力に効果的に適応できる、プラグアンドプレイ型インタグメンテーションモジュールを提案する。
さらに、世界知識と運転関連タスクをよりよく統合するために、200万の自然言語QAペアと170万の基底タスクデータを含む大規模なマルチモーダルデータセットを収集し、洗練しました。
モデルによる世界知識の利用を評価するために,200KQAペアからなるオブジェクトレベルのリスク評価データセットを導入する。
大規模実験により提案手法の有効性が検証された。
関連論文リスト
- SenseRAG: Constructing Environmental Knowledge Bases with Proactive Querying for LLM-Based Autonomous Driving [10.041702058108482]
本研究では,大規模言語モデル(LLM)の文脈推論機能を活用することにより,自律運転(AD)における状況認識の高度化の必要性に対処する。
厳密なラベルベースのアノテーションに依存する従来の認識システムとは異なり、リアルタイムのマルチモーダルセンサーデータを統一されたLLM対応の知識ベースに統合する。
実世界のV2Xデータセットを用いた実験結果は、知覚と予測性能の大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-07T05:15:46Z) - Coherence-Driven Multimodal Safety Dialogue with Active Learning for Embodied Agents [23.960719833886984]
M-CoDAL(M-CoDAL)は、安全クリティカルな状況下でのコミュニケーションをよりよく理解するために、実施エージェント向けに設計されたマルチモーダル対話システムである。
提案手法は,2K Reddit画像から抽出した1Kの安全違反を含む,新たに作成されたマルチモーダルデータセットを用いて評価する。
このデータセットで得られた結果は、我々のアプローチが会話の安全性だけでなく、安全状況、ユーザーの感情、および会話の安全性の解決を改善することを実証している。
論文 参考訳(メタデータ) (2024-10-18T03:26:06Z) - A Survey on Large Language Model-empowered Autonomous Driving [25.963195890376646]
自律運転(AD)技術の開発は、モジュール化とエンドツーエンドの2つの主要な技術的パスに従っている。
本稿では,ADシステムにおける大規模言語モデル(LLM)の適用可能性について,詳細な分析を行う。
LLMベースの人工知能(AGI)がハイレベルADを実現する鍵となるのか?
論文 参考訳(メタデータ) (2024-09-21T15:07:37Z) - Scalable Language Model with Generalized Continual Learning [58.700439919096155]
The Joint Adaptive Re-ization (JARe) is integrated with Dynamic Task-related Knowledge Retrieval (DTKR) to enable adapt adjust of language model based on specific downstream task。
提案手法は,様々なバックボーンやベンチマーク上での最先端性能を実証し,最小限の忘れを伴い,フルセットおよび少数ショットのシナリオにおいて効果的な連続学習を実現する。
論文 参考訳(メタデータ) (2024-04-11T04:22:15Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。
LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。
適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文 参考訳(メタデータ) (2023-11-28T03:13:09Z) - DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large
Language Models [30.23228092898916]
本稿では,ReasoningとReflectionモジュールを組み合わせたDiLuフレームワークを提案する。
大規模な実験は、ダイリューが経験を蓄積し、一般化能力において大きな優位性を示す能力を証明する。
私たちの知識を最大限に活用するために、自動運転車の意思決定において知識駆動能力を活用するのは、私たちは初めてです。
論文 参考訳(メタデータ) (2023-09-28T09:41:35Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - A Study of Situational Reasoning for Traffic Understanding [63.45021731775964]
トラフィック領域における状況推論のための3つの新しいテキストベースのタスクを考案する。
先行作業における言語推論タスクにまたがる一般化能力を示す知識強化手法を4つ採用する。
本稿では,データ分割におけるモデル性能の詳細な解析を行い,モデル予測を分類的に検討する。
論文 参考訳(メタデータ) (2023-06-05T01:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。