論文の概要: HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2309.05186v2
- Date: Mon, 24 Mar 2025 07:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:30:49.060483
- Title: HiLM-D: Enhancing MLLMs with Multi-Scale High-Resolution Details for Autonomous Driving
- Title(参考訳): HiLM-D:マルチスケール高分解能MLLMの自動運転への応用
- Authors: Xinpeng Ding, Jianhua Han, Hang Xu, Wei Zhang, Xiaomeng Li,
- Abstract要約: HiLM-D は ROLISP 用の MLLM の視覚情報処理を強化するリソース効率のよいフレームワークである。
本手法は, 自律走行シナリオにおける主要な変動が運動軌跡であるという事実に動機付けられている。
実験の結果、HiLM-Dは現在のMLLMよりも大幅に改善され、BLEU-4のキャプションは3.7%、mIoUの8.7%が検出された。
- 参考スコア(独自算出の注目度): 44.06475712570428
- License:
- Abstract: Recent efforts to use natural language for interpretable driving focus mainly on planning, neglecting perception tasks. In this paper, we address this gap by introducing ROLISP (Risk Object Localization and Intention and Suggestion Prediction), which towards interpretable risk object detection and suggestion for ego car motions. Accurate ROLISP implementation requires extensive reasoning to identify critical traffic objects and infer their intentions, prompting us to explore the capabilities of multimodal large language models (MLLMs). However, the limited perception performance of CLIP-ViT vision encoders in existing MLLMs struggles with capturing essential visual perception information, e.g., high-resolution, multi-scale and visual-related inductive biases, which are important for autonomous driving. Addressing these challenges, we introduce HiLM-D, a resource-efficient framework that enhances visual information processing in MLLMs for ROLISP. Our method is motivated by the fact that the primary variations in autonomous driving scenarios are the motion trajectories rather than the semantic or appearance information (e.g., the shapes and colors) of objects. Hence, the visual process of HiLM-D is a two-stream framework: (i) a temporal reasoning stream, receiving low-resolution dynamic video content, to capture temporal semantics, and (ii) a spatial perception stream, receiving a single high-resolution frame, to capture holistic visual perception-related information. The spatial perception stream can be made very lightweight by a well-designed P-Adapter, which is lightweight, training-efficient, and easily integrated into existing MLLMs. Experiments on the DRAMA-ROLISP dataset show HiLM-D's significant improvements over current MLLMs, with a 3.7% in BLEU-4 for captioning and 8.7% in mIoU for detection.
- Abstract(参考訳): 自然言語を解釈可能な運転に利用しようとする最近の取り組みは、主に計画、知覚タスクの無視に焦点をあてている。
本稿では,リスクオブジェクトの検出とエゴカー動作の予測を行うROLISP(Risk Object Localization and Intention and Suggestion Prediction)を導入することで,このギャップに対処する。
ROLISPの正確な実装は、重要なトラフィックオブジェクトを識別し、その意図を推測するために広範囲な推論を必要とし、マルチモーダルな大言語モデル(MLLM)の能力を探求する。
しかし、既存のMLLMにおけるCLIP-ViT視覚エンコーダの知覚性能は、例えば、高解像度、マルチスケール、視覚関連誘導バイアスといった、自律運転において重要な視覚情報を取得することに苦慮している。
これらの課題に対処するため、ROLISP用のMLLMにおける視覚情報処理を強化するリソース効率の高いフレームワークであるHiLM-Dを導入する。
本手法は,物体の意味や外観情報(形状や色など)よりも,移動軌跡が自律走行のシナリオの主要なバリエーションであるという事実を動機としている。
したがって、HiLM-Dの視覚的プロセスは2ストリームフレームワークである。
(i)時間的推論ストリーム、低解像度ダイナミックビデオコンテンツ受信、時間的意味論のキャプチャ、
(2)1つの高解像度フレームを受信した空間知覚ストリームを用いて、全体的視覚知覚関連情報をキャプチャする。
空間認識ストリームは、軽量で、訓練効率が高く、既存のMLLMに容易に組み込むことができる、よく設計されたP-Adapterによって、非常に軽量にすることができる。
DRAMA-ROLISPデータセットの実験では、HiLM-Dは現在のMLLMよりも大幅に改善されており、BLEU-4はキャプションで3.7%、mIoUは8.7%である。
関連論文リスト
- DriVLM: Domain Adaptation of Vision-Language Models in Autonomous Driving [20.644133177870852]
マルチモーダル大言語モデル(MLLM)は、画像、ビデオ、音声、テキストなど、複数のモダリティを組み合わせることができる。
ほとんどのMLLMは高い計算資源を必要としており、ほとんどの研究者や開発者にとって大きな課題である。
本稿では,小型MLLMの実用性について検討し,小型MLLMを自律運転分野に適用した。
論文 参考訳(メタデータ) (2025-01-09T09:02:41Z) - MLLM-SUL: Multimodal Large Language Model for Semantic Scene Understanding and Localization in Traffic Scenarios [10.353093987945012]
マルチモーダル大規模言語モデル(MLLM)は、多くの自律運転タスクにおいて満足な効果を示している。
本稿では,MLLMを用いて,協調的セマンティック・シーン理解とリスク・ローカライゼーションの課題を解決する。
本手法はシーン理解タスクにおいて,80.1%のBLEU-1スコア,298.5%のCIDErスコア,59.6%の精度を達成している。
論文 参考訳(メタデータ) (2024-12-27T02:05:38Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Tell Me Where You Are: Multimodal LLMs Meet Place Recognition [11.421492098416538]
視覚的位置認識(VPR)にマルチモーダル大言語モデル(MLLM)を導入する。
我々のキーとなる設計は、視覚に基づく検索を用いて複数の候補を提案し、言語に基づく推論を利用して最終決定のために各候補を慎重に検査することである。
3つのデータセットから得られた結果から,VFMの汎用的視覚特徴とMLLMの推論能力の統合が,すでに有効な位置認識ソリューションを提供していることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T12:59:46Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - Enhancing the Spatial Awareness Capability of Multi-Modal Large Language
Model [25.86351431223383]
MLLM(Multi-Modal Large Language Model)は、マルチモーダルデータの受信と推論機能を備えたLarge Language Model (LLM)の拡張である。
本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
論文 参考訳(メタデータ) (2023-10-31T10:57:35Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。