論文の概要: HiLM-D: Towards High-Resolution Understanding in Multimodal Large
Language Models for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2309.05186v1
- Date: Mon, 11 Sep 2023 01:24:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 14:08:52.164362
- Title: HiLM-D: Towards High-Resolution Understanding in Multimodal Large
Language Models for Autonomous Driving
- Title(参考訳): HiLM-D: 自律運転のための多モーダル大規模言語モデルにおける高分解能理解に向けて
- Authors: Xinpeng Ding, Jianhua Han, Hang Xu, Wei Zhang, Xiaomeng Li
- Abstract要約: HiLM-D は ROLISP タスクのための MLLM に HR 情報を組み込む効率的な手法である。
実験の結果,HiLM-DはMLLMよりも顕著な優位性を示し,キャプションではBLEU-4が4.8%,検出ではmIoUが17.2%改善した。
- 参考スコア(独自算出の注目度): 47.274696401306514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous driving systems generally employ separate models for different
tasks resulting in intricate designs. For the first time, we leverage singular
multimodal large language models (MLLMs) to consolidate multiple autonomous
driving tasks from videos, i.e., the Risk Object Localization and Intention and
Suggestion Prediction (ROLISP) task. ROLISP uses natural language to
simultaneously identify and interpret risk objects, understand ego-vehicle
intentions, and provide motion suggestions, eliminating the necessity for
task-specific architectures. However, lacking high-resolution (HR) information,
existing MLLMs often miss small objects (e.g., traffic cones) and overly focus
on salient ones (e.g., large trucks) when applied to ROLISP. We propose HiLM-D
(Towards High-Resolution Understanding in MLLMs for Autonomous Driving), an
efficient method to incorporate HR information into MLLMs for the ROLISP task.
Especially, HiLM-D integrates two branches: (i) the low-resolution reasoning
branch, can be any MLLMs, processes low-resolution videos to caption risk
objects and discern ego-vehicle intentions/suggestions; (ii) the
high-resolution perception branch (HR-PB), prominent to HiLM-D,, ingests HR
images to enhance detection by capturing vision-specific HR feature maps and
prioritizing all potential risks over merely salient objects. Our HR-PB serves
as a plug-and-play module, seamlessly fitting into current MLLMs. Experiments
on the ROLISP benchmark reveal HiLM-D's notable advantage over leading MLLMs,
with improvements of 4.8% in BLEU-4 for captioning and 17.2% in mIoU for
detection.
- Abstract(参考訳): 自律運転システムは通常、複雑な設計をもたらす様々なタスクのために別々のモデルを使用する。
単一のマルチモーダル大言語モデル(MLLM)を利用して、ビデオから複数の自律運転タスク、すなわちリスクオブジェクトの局所化と意図と提案予測(ROLISP)タスクを統合する。
ROLISPは自然言語を使ってリスクオブジェクトを同時に識別し、解釈し、Ego-vehicleの意図を理解し、動作提案を提供し、タスク固有のアーキテクチャの必要性を排除する。
しかし、高分解能(HR)情報がないため、既存のMLLMは小さな物体(交通コーンなど)を見逃し、ROLISPに適用した場合は静かな物体(大型トラックなど)に過度に注目することが多い。
ROLISP タスクに HR 情報をMLLM に組み込む効率的な手法として HiLM-D (Towards High-Resolution Understanding in MLLMs for autonomous Driving) を提案する。
特に、HiLM-Dは2つの枝を統合する。
(i)低分解能推論枝は、MLLMで、低分解能ビデオを処理し、リスクオブジェクトをキャプションし、エゴ車両の意図/提案を識別する。
(II)HiLM-Dに顕著な高分解能知覚枝(HR-PB)は、視覚特有のHR特徴マップをキャプチャし、単に有能な物体よりも潜在的なリスクをすべて優先順位付けすることにより、HRイメージを取り込み、検出を強化する。
hr-pbはプラグアンドプレイモジュールとして機能し、現在のmllmにシームレスに適合します。
ROLISPベンチマークの実験では、HiLM-DがMLLMよりも顕著な優位性を示し、キャプションではBLEU-4が4.8%、検出ではmIoUが17.2%改善した。
関連論文リスト
- DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving [13.115027801151484]
自律運転におけるマルチモーダル大言語モデル(MLLM)の空間的理解能力を評価するためのベンチマークであるDriveMLLMを紹介する。
DriveMLLMには、880の前面カメライメージが含まれており、言語学的に多様な自然言語問題を伴う絶対的および相対的空間推論タスクが導入されている。
我々は,DriveMLLMにおける最先端MLLMの評価を行い,運転環境における複雑な空間的関係を理解する上での現在のモデルの限界を明らかにした。
論文 参考訳(メタデータ) (2024-11-20T08:14:01Z) - Can MLLMs Guide Weakly-Supervised Temporal Action Localization Tasks? [6.7065734065794835]
MLLM4WTALと呼ばれる新しい学習パラダイムを導入する。
MLLMのポテンシャルを利用して、時間的アクションキーセマンティクスと完全なセマンティクスの事前を提供する。
キーセマンティックマッチング(KSM)と完全セマンティック再構成(CSR)の2つの異なるモジュールを統合することでこれを実現できる。
論文 参考訳(メタデータ) (2024-11-13T09:37:24Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Tell Me Where You Are: Multimodal LLMs Meet Place Recognition [11.421492098416538]
視覚的位置認識(VPR)にマルチモーダル大言語モデル(MLLM)を導入する。
我々のキーとなる設計は、視覚に基づく検索を用いて複数の候補を提案し、言語に基づく推論を利用して最終決定のために各候補を慎重に検査することである。
3つのデータセットから得られた結果から,VFMの汎用的視覚特徴とMLLMの推論能力の統合が,すでに有効な位置認識ソリューションを提供していることが示唆された。
論文 参考訳(メタデータ) (2024-06-25T12:59:46Z) - Holistic Autonomous Driving Understanding by Bird's-Eye-View Injected
Multi-Modal Large Models [76.99140362751787]
我々は17のサブタスクで91Kのマルチビュービデオ-QAペアを持つ新しいデータセットであるNuInstructを提案する。
また,BirdのEye-View特徴を効率的に抽出するエンドツーエンド手法であるBEV-InMLLMを提案する。
論文 参考訳(メタデータ) (2024-01-02T01:54:22Z) - Enhancing the Spatial Awareness Capability of Multi-Modal Large Language
Model [25.86351431223383]
MLLM(Multi-Modal Large Language Model)は、マルチモーダルデータの受信と推論機能を備えたLarge Language Model (LLM)の拡張である。
本稿では,MLLMを誘導するオブジェクト間のより正確な空間的位置情報を用いて,ユーザ関連の質問に対するより正確な応答を提供する。
論文 参考訳(メタデータ) (2023-10-31T10:57:35Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。