論文の概要: Zero-Shot Scene Understanding with Multimodal Large Language Models for Automated Vehicles
- arxiv url: http://arxiv.org/abs/2506.12232v1
- Date: Tue, 18 Mar 2025 00:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.632901
- Title: Zero-Shot Scene Understanding with Multimodal Large Language Models for Automated Vehicles
- Title(参考訳): 自動走行車のための多モーダル大言語モデルによるゼロショットシーン理解
- Authors: Mohammed Elhenawy, Shadi Jaradat, Taqwa I. Alhadidi, Huthaifa I. Ashqar, Ahmed Jaber, Andry Rakotonirainy, Mohammad Abu Tami,
- Abstract要約: 本稿では、ゼロショット・インコンテキスト学習環境におけるシーン理解のための4つのマルチモーダル大規模言語モデル(MLLM)の能力を評価する。
実験の結果,最大モデルであるGPT-4oはシーン理解において他のモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 5.312025021315423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene understanding is critical for various downstream tasks in autonomous driving, including facilitating driver-agent communication and enhancing human-centered explainability of autonomous vehicle (AV) decisions. This paper evaluates the capability of four multimodal large language models (MLLMs), including relatively small models, to understand scenes in a zero-shot, in-context learning setting. Additionally, we explore whether combining these models using an ensemble approach with majority voting can enhance scene understanding performance. Our experiments demonstrate that GPT-4o, the largest model, outperforms the others in scene understanding. However, the performance gap between GPT-4o and the smaller models is relatively modest, suggesting that advanced techniques such as improved in-context learning, retrieval-augmented generation (RAG), or fine-tuning could further optimize the smaller models' performance. We also observe mixed results with the ensemble approach: while some scene attributes show improvement in performance metrics such as F1-score, others experience a decline. These findings highlight the need for more sophisticated ensemble techniques to achieve consistent gains across all scene attributes. This study underscores the potential of leveraging MLLMs for scene understanding and provides insights into optimizing their performance for autonomous driving applications.
- Abstract(参考訳): シーン理解は、ドライバーとエージェントのコミュニケーションの促進や、自動運転車(AV)の意思決定における人間中心の説明可能性の向上など、自動運転におけるさまざまな下流業務に不可欠である。
本稿では,比較的小さなモデルを含む4つのマルチモーダル大規模言語モデル(MLLM)が,ゼロショット・インコンテキスト学習環境におけるシーンの理解能力を評価する。
さらに,アンサンブル方式と多数決方式を組み合わせることで,シーン理解性能が向上するかどうかを考察する。
実験の結果,最大モデルであるGPT-4oはシーン理解において他のモデルよりも優れていた。
しかし, GPT-4o と小型モデル間の性能差は比較的小さく, テキスト内学習の改善, 検索拡張生成(RAG), 微調整などの高度な技術により, より小型モデルの性能をさらに最適化できる可能性が示唆された。
また、アンサンブルアプローチによる混合結果も観察した。いくつかのシーン特性は、F1スコアなどのパフォーマンス指標の改善を示しているが、他のシーンでは低下を経験している。
これらの知見は、すべてのシーン属性に対して一貫した利得を達成するために、より洗練されたアンサンブル技術の必要性を浮き彫りにしている。
本研究は、シーン理解にMLLMを活用する可能性を強調し、自律運転アプリケーションの性能を最適化するための洞察を提供する。
関連論文リスト
- MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.138699712315]
本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。
MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。
実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文 参考訳(メタデータ) (2025-03-11T03:13:45Z) - Vision-Language Models for Autonomous Driving: CLIP-Based Dynamic Scene Understanding [5.578400344096341]
本研究では,コントラスト言語-画像事前学習(CLIP)モデルを用いた動的シーン検索システムを開発した。
提案システムは,GPT-4oのゼロショット機能を含む,最先端のコンテキスト内学習手法より優れている。
論文 参考訳(メタデータ) (2025-01-09T20:29:31Z) - LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering [30.51487692912812]
MLLM(Multimodal Large Language Models)は、大規模言語モデル(LLM)に視覚表現を統合することで、視覚的タスクを大幅に進歩させる。
目的を達成するためにモダリティリニア表現ステアリング(MoReS)を導入する。
MoReSはモデル全体の固有のモダリティを効果的に再バランスさせ、そこでキーとなるアイデアは、各モデル層をまたいだ視覚部分空間の線形変換を通じて視覚表現を操ることである。
論文 参考訳(メタデータ) (2024-12-16T21:14:11Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Deciphering AutoML Ensembles: cattleia's Assistance in Decision-Making [0.0]
Cattleiaは、回帰、マルチクラス、バイナリ分類タスクのアンサンブルを解読するアプリケーションである。
Auto-Sklearn、AutoGluon、FLAMLという3つのAutoMLパッケージで構築されたモデルで動作する。
論文 参考訳(メタデータ) (2024-03-19T11:56:21Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。