論文の概要: Research on Driving Scenario Technology Based on Multimodal Large Lauguage Model Optimization
- arxiv url: http://arxiv.org/abs/2506.02014v1
- Date: Wed, 28 May 2025 02:22:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.342166
- Title: Research on Driving Scenario Technology Based on Multimodal Large Lauguage Model Optimization
- Title(参考訳): マルチモーダル大軌跡モデル最適化に基づく運転シナリオ技術に関する研究
- Authors: Wang Mengjie, Zhu Huiping, Li Jian, Shi Wenxiu, Zhang Song,
- Abstract要約: 本稿では,運転シナリオにおけるマルチモーダルモデルを最適化するための包括的手法を提案する。
このメソッドは動的プロンプト最適化、データセットの構築、モデルトレーニング、デプロイメントといった重要な側面をカバーする。
モデルトレーニングでは、知識蒸留、動的微調整、量子化といった高度な技術が統合され、性能を高めながら記憶と計算コストを削減できる。
- 参考スコア(独自算出の注目度): 1.0485739694839669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advancement of autonomous and assisted driving technologies, higher demands are placed on the ability to understand complex driving scenarios. Multimodal general large models have emerged as a solution for this challenge. However, applying these models in vertical domains involves difficulties such as data collection, model training, and deployment optimization. This paper proposes a comprehensive method for optimizing multimodal models in driving scenarios, including cone detection, traffic light recognition, speed limit recommendation, and intersection alerts. The method covers key aspects such as dynamic prompt optimization, dataset construction, model training, and deployment. Specifically, the dynamic prompt optimization adjusts the prompts based on the input image content to focus on objects affecting the ego vehicle, enhancing the model's task-specific focus and judgment capabilities. The dataset is constructed by combining real and synthetic data to create a high-quality and diverse multimodal training dataset, improving the model's generalization in complex driving environments. In model training, advanced techniques like knowledge distillation, dynamic fine-tuning, and quantization are integrated to reduce storage and computational costs while boosting performance. Experimental results show that this systematic optimization method not only significantly improves the model's accuracy in key tasks but also achieves efficient resource utilization, providing strong support for the practical application of driving scenario perception technologies.
- Abstract(参考訳): 自律運転技術と補助運転技術の進歩により、複雑な運転シナリオを理解する能力により高い要求が課せられる。
この挑戦の解決策として、マルチモーダル・ジェネラル・大型モデルが登場した。
しかし、これらのモデルを垂直領域に適用するには、データ収集、モデルトレーニング、デプロイメント最適化といった困難が伴う。
本稿では,コーン検出,トラヒック光認識,速度制限勧告,交差点警告など,運転シナリオにおけるマルチモーダルモデルを最適化するための包括的手法を提案する。
このメソッドは動的プロンプト最適化、データセットの構築、モデルトレーニング、デプロイメントといった重要な側面をカバーする。
具体的には、動的プロンプト最適化により、入力画像の内容に基づいてプロンプトを調整し、エゴ車に影響を与えるオブジェクトにフォーカスし、モデルのタスク固有のフォーカスと判断能力を向上する。
データセットは、実データと合成データを組み合わせて、高品質で多様なマルチモーダルトレーニングデータセットを作成し、複雑な運転環境におけるモデルの一般化を改善する。
モデルトレーニングでは、知識蒸留、動的微調整、量子化といった高度な技術が統合され、性能を高めながら記憶と計算コストを削減できる。
実験結果から,本手法は重要なタスクにおけるモデルの精度を向上するだけでなく,効率的な資源利用を実現し,シナリオ認識技術の実践的活用を強力に支援することを示す。
関連論文リスト
- DriveGen: Towards Infinite Diverse Traffic Scenarios with Large Models [22.21497010925769]
DriveGenは、より多様なトラフィック生成のための大きなモデルを備えた、新しいトラフィックシミュレーションフレームワークである。
DriveGenは、大規模モデルのハイレベルな認識と運転行動の推論を完全に活用する。
生成したシナリオとコーナーケースは、最先端のベースラインよりも優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-03-04T06:14:21Z) - A Survey of Automatic Prompt Engineering: An Optimization Perspective [18.933465526053453]
本稿では,統合最適化理論レンズによる自動プロンプト工学の総合的な研究について紹介する。
我々は離散的かつ連続的でハイブリッドなプロンプト空間上の問題としてプロンプト最適化を定式化する。
制約のある最適化とエージェント指向のプロンプト設計において、未探索のフロンティアを強調した。
論文 参考訳(メタデータ) (2025-02-17T08:48:07Z) - A Survey of World Models for Autonomous Driving [63.33363128964687]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
本稿では、自律運転の世界モデルにおける最近の進歩を体系的にレビューする。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - From Imitation to Exploration: End-to-end Autonomous Driving based on World Model [24.578178308010912]
RAMBLEは、意思決定を駆動するエンド・ツー・エンドの世界モデルベースのRL方式である。
複雑な動的トラフィックシナリオを処理できる。
CARLA Leaderboard 1.0では、ルート完了率の最先端のパフォーマンスを達成し、CARLA Leaderboard 2.0では38のシナリオをすべて完了している。
論文 参考訳(メタデータ) (2024-10-03T06:45:59Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Gradient-Based Trajectory Optimization With Learned Dynamics [80.41791191022139]
データからシステムの微分可能なダイナミクスモデルを学習するために、機械学習技術を使用します。
ニューラルネットワークは、大規模な時間的地平線に対して、非常に非線形な振る舞いを正確にモデル化できることが示される。
ハードウェア実験において、学習したモデルがSpotとRadio- controlled (RC)の両方の複雑な力学を表現できることを実証した。
論文 参考訳(メタデータ) (2022-04-09T22:07:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。