論文の概要: Zero-Shot Scene Understanding with Multimodal Large Language Models for Automated Vehicles
- arxiv url: http://arxiv.org/abs/2506.12232v1
- Date: Tue, 18 Mar 2025 00:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.632901
- Title: Zero-Shot Scene Understanding with Multimodal Large Language Models for Automated Vehicles
- Title(参考訳): 自動走行車のための多モーダル大言語モデルによるゼロショットシーン理解
- Authors: Mohammed Elhenawy, Shadi Jaradat, Taqwa I. Alhadidi, Huthaifa I. Ashqar, Ahmed Jaber, Andry Rakotonirainy, Mohammad Abu Tami,
- Abstract要約: 本稿では、ゼロショット・インコンテキスト学習環境におけるシーン理解のための4つのマルチモーダル大規模言語モデル(MLLM)の能力を評価する。
実験の結果,最大モデルであるGPT-4oはシーン理解において他のモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 5.312025021315423
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene understanding is critical for various downstream tasks in autonomous driving, including facilitating driver-agent communication and enhancing human-centered explainability of autonomous vehicle (AV) decisions. This paper evaluates the capability of four multimodal large language models (MLLMs), including relatively small models, to understand scenes in a zero-shot, in-context learning setting. Additionally, we explore whether combining these models using an ensemble approach with majority voting can enhance scene understanding performance. Our experiments demonstrate that GPT-4o, the largest model, outperforms the others in scene understanding. However, the performance gap between GPT-4o and the smaller models is relatively modest, suggesting that advanced techniques such as improved in-context learning, retrieval-augmented generation (RAG), or fine-tuning could further optimize the smaller models' performance. We also observe mixed results with the ensemble approach: while some scene attributes show improvement in performance metrics such as F1-score, others experience a decline. These findings highlight the need for more sophisticated ensemble techniques to achieve consistent gains across all scene attributes. This study underscores the potential of leveraging MLLMs for scene understanding and provides insights into optimizing their performance for autonomous driving applications.
- Abstract(参考訳): シーン理解は、ドライバーとエージェントのコミュニケーションの促進や、自動運転車(AV)の意思決定における人間中心の説明可能性の向上など、自動運転におけるさまざまな下流業務に不可欠である。
本稿では,比較的小さなモデルを含む4つのマルチモーダル大規模言語モデル(MLLM)が,ゼロショット・インコンテキスト学習環境におけるシーンの理解能力を評価する。
さらに,アンサンブル方式と多数決方式を組み合わせることで,シーン理解性能が向上するかどうかを考察する。
実験の結果,最大モデルであるGPT-4oはシーン理解において他のモデルよりも優れていた。
しかし, GPT-4o と小型モデル間の性能差は比較的小さく, テキスト内学習の改善, 検索拡張生成(RAG), 微調整などの高度な技術により, より小型モデルの性能をさらに最適化できる可能性が示唆された。
また、アンサンブルアプローチによる混合結果も観察した。いくつかのシーン特性は、F1スコアなどのパフォーマンス指標の改善を示しているが、他のシーンでは低下を経験している。
これらの知見は、すべてのシーン属性に対して一貫した利得を達成するために、より洗練されたアンサンブル技術の必要性を浮き彫りにしている。
本研究は、シーン理解にMLLMを活用する可能性を強調し、自律運転アプリケーションの性能を最適化するための洞察を提供する。
関連論文リスト
- MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.138699712315]
本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。
MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。
実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文 参考訳(メタデータ) (2025-03-11T03:13:45Z) - Application of Vision-Language Model to Pedestrians Behavior and Scene Understanding in Autonomous Driving [5.456780031044544]
本稿では,大規模視覚言語基礎モデルから効率的な視覚ネットワークへ知識を伝達する知識蒸留法を提案する。
歩行者行動予測やシーン理解タスクに適用し,より多様で包括的なセマンティック属性を生成する上で,有望な結果を達成する。
論文 参考訳(メタデータ) (2025-01-12T01:31:07Z) - Vision-Language Models for Autonomous Driving: CLIP-Based Dynamic Scene Understanding [5.578400344096341]
本研究では,コントラスト言語-画像事前学習(CLIP)モデルを用いた動的シーン検索システムを開発した。
提案システムは,GPT-4oのゼロショット機能を含む,最先端のコンテキスト内学習手法より優れている。
論文 参考訳(メタデータ) (2025-01-09T20:29:31Z) - LLaVA Steering: Visual Instruction Tuning with 500x Fewer Parameters through Modality Linear Representation-Steering [30.51487692912812]
MLLM(Multimodal Large Language Models)は、大規模言語モデル(LLM)に視覚表現を統合することで、視覚的タスクを大幅に進歩させる。
目的を達成するためにモダリティリニア表現ステアリング(MoReS)を導入する。
MoReSはモデル全体の固有のモダリティを効果的に再バランスさせ、そこでキーとなるアイデアは、各モデル層をまたいだ視覚部分空間の線形変換を通じて視覚表現を操ることである。
論文 参考訳(メタデータ) (2024-12-16T21:14:11Z) - Mini-InternVL: A Flexible-Transfer Pocket Multimodal Model with 5% Parameters and 90% Performance [78.48606021719206]
Mini-InternVL は 1B から 4B までのパラメータを持つ一連の MLLM であり、パラメータの 5% しか持たない性能の90% を達成している。
我々は,ダウンストリームタスクにおける特化モデルの転送と性能向上を可能にする,Mini-InternVLの統一適応フレームワークを開発した。
論文 参考訳(メタデータ) (2024-10-21T17:58:20Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Probing Multimodal LLMs as World Models for Driving [72.18727651074563]
自律運転におけるMLLM(Multimodal Large Language Models)の適用について検討する。
GPT-4oのようなモデルの開発は進んでいるが、複雑な運転環境における性能は未解明のままである。
論文 参考訳(メタデータ) (2024-05-09T17:52:42Z) - Deciphering AutoML Ensembles: cattleia's Assistance in Decision-Making [0.0]
Cattleiaは、回帰、マルチクラス、バイナリ分類タスクのアンサンブルを解読するアプリケーションである。
Auto-Sklearn、AutoGluon、FLAMLという3つのAutoMLパッケージで構築されたモデルで動作する。
論文 参考訳(メタデータ) (2024-03-19T11:56:21Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。