論文の概要: Enhancing Vision-Language Models for Autonomous Driving through Task-Specific Prompting and Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2510.24152v1
- Date: Tue, 28 Oct 2025 07:43:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.894353
- Title: Enhancing Vision-Language Models for Autonomous Driving through Task-Specific Prompting and Spatial Reasoning
- Title(参考訳): タスク特化プロンプティングと空間推論による自律走行のためのビジョンランゲージモデルの構築
- Authors: Aodi Wu, Xubo Luo,
- Abstract要約: 本報告では,IROS 2025におけるRoboSense Challengeの解決策について述べる。
VLM(Vision-Language Models)は、知覚、予測、計画、汚職検出タスクを横断する自律走行シーンの理解について評価する。
4つのコアコンポーネント上に構築された体系的フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.47745223151611654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report presents our solution for the RoboSense Challenge at IROS 2025, which evaluates Vision-Language Models (VLMs) on autonomous driving scene understanding across perception, prediction, planning, and corruption detection tasks. We propose a systematic framework built on four core components. First, a Mixture-of-Prompts router classifies questions and dispatches them to task-specific expert prompts, eliminating interference across diverse question types. Second, task-specific prompts embed explicit coordinate systems, spatial reasoning rules, role-playing, Chain-of-Thought/Tree-of-Thought reasoning, and few-shot examples tailored to each task. Third, a visual assembly module composes multi-view images with object crops, magenta markers, and adaptive historical frames based on question requirements. Fourth, we configure model inference parameters (temperature, top-p, message roles) per task to optimize output quality. Implemented on Qwen2.5-VL-72B, our approach achieves 70.87% average accuracy on Phase-1 (clean data) and 72.85% on Phase-2 (corrupted data), demonstrating that structured prompting and spatial grounding substantially enhance VLM performance on safety-critical autonomous driving tasks. Code and prompt are available at https://github.com/wuaodi/UCAS-CSU-phase2.
- Abstract(参考訳): IROS 2025のRoboSense Challengeでは、視覚・言語モデル(VLM)を認識、予測、計画、汚職検出タスクを横断する自律走行シーンの理解において評価する。
4つのコアコンポーネント上に構築された体系的フレームワークを提案する。
まず、Mixture-of-Promptsルータが質問を分類し、タスク固有の専門家プロンプトにディスパッチし、多様な質問タイプ間の干渉を排除する。
第二に、タスク固有のプロンプトは、明示的な座標系、空間的推論規則、ロールプレイング、Chain-of-Thought/Tree-of-Thought推論、および各タスクに合わせて調整された少数ショット例を組み込む。
第3に、視覚アセンブリモジュールは、質問要求に基づいて、オブジェクトの作物、マゼンタマーカー、適応的な履歴フレームを含む多視点画像を構成する。
第4に、出力品質を最適化するために、タスク毎にモデル推論パラメータ(温度、トップp、メッセージロール)を設定します。
Qwen2.5-VL-72Bに実装し,第1相(クリーンデータ)では70.87%,第2相(破損データ)では72.85%の精度を実現した。
コードとプロンプトはhttps://github.com/wuaodi/UCAS-CSU-phase2.comで入手できる。
関連論文リスト
- Robust Driving QA through Metadata-Grounded Context and Task-Specific Prompts [27.64955941993406]
本稿では,ハイレベルな認識,予測,計画的疑問に答える自律運転のための視覚言語QAシステムを提案する。
駆動型QAベンチマークの実験では,本手法はベースラインのQwen2.5モデルよりも有意に優れていた。
特に、このシステムは、深刻な視覚的腐敗の下で96%の精度を維持している。
論文 参考訳(メタデータ) (2025-10-21T18:24:59Z) - Information-Theoretic Graph Fusion with Vision-Language-Action Model for Policy Reasoning and Dual Robotic Control [22.74768543283102]
Graph-Fused Vision-Language-Action (GF-VLA)は、デュアルアームロボットシステムがタスクレベルの推論と実行を可能にするフレームワークである。
GF-VLAはまずシャノン情報に基づく手がかりを抽出し、最も高いタスク関連性を持つ手や物体を識別する。
クロスハンド選択ポリシーは、明示的な幾何学的推論なしで最適な割り当てを推測する。
論文 参考訳(メタデータ) (2025-08-07T12:48:09Z) - Analyze-Prompt-Reason: A Collaborative Agent-Based Framework for Multi-Image Vision-Language Reasoning [3.588567067449924]
マルチイメージ推論のための協調エージェントベースフレームワークを提案する。
提案手法は,多様なデータセットやタスク形式にまたがるマルチモーダル推論のインターリーブ化という課題に対処する。
我々は2025年のMIRAGE Challengeから18種類の多様なデータセットについて評価を行った。
論文 参考訳(メタデータ) (2025-08-01T06:39:15Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - REMAC: Self-Reflective and Self-Evolving Multi-Agent Collaboration for Long-Horizon Robot Manipulation [57.628771707989166]
本稿では,ReMACと呼ばれる適応型マルチエージェント計画フレームワークを提案する。
ReMACには2つの重要なモジュールが組み込まれており、ループ内で事前条件と後条件チェックを実行し、進捗と計画の洗練を評価する。
論文 参考訳(メタデータ) (2025-03-28T03:51:40Z) - DeTra: A Unified Model for Object Detection and Trajectory Forecasting [68.85128937305697]
提案手法は,2つのタスクの結合を軌道修正問題として定式化する。
この統合タスクに対処するために、オブジェクトの存在, ポーズ, マルチモーダルな将来の振る舞いを推測する精細化変換器を設計する。
実験では、我々のモデルはArgoverse 2 Sensor and Openデータセットの最先端性よりも優れています。
論文 参考訳(メタデータ) (2024-06-06T18:12:04Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Planning-oriented Autonomous Driving [60.93767791255728]
我々は、最終目標、すなわち自動運転車の計画を追求するために、好ましいフレームワークを考案し、最適化すべきであると主張している。
フルスタック運転タスクをひとつのネットワークに組み込んだ総合的なフレームワークであるUnified Autonomous Driving (UniAD)を紹介した。
論文 参考訳(メタデータ) (2022-12-20T10:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。