論文の概要: Exploration of VLMs for Driver Monitoring Systems Applications
- arxiv url: http://arxiv.org/abs/2503.12281v1
- Date: Sat, 15 Mar 2025 22:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:52.166747
- Title: Exploration of VLMs for Driver Monitoring Systems Applications
- Title(参考訳): 運転監視システム用VLMの探索
- Authors: Paola Natalia Cañas, Marcos Nieto, Oihana Otaegui, Igor Rodríguez,
- Abstract要約: 近年,新たなディープラーニングモデル,特にLarge Language Models(LLM)とVision-Language Models(VLM)の進展が見られた。
本稿では,ドライバモニタリングシステム(DMS)におけるVLMの実装について述べる。
- 参考スコア(独自算出の注目度): 3.59361692183907
- License:
- Abstract: In recent years, we have witnessed significant progress in emerging deep learning models, particularly Large Language Models (LLMs) and Vision-Language Models (VLMs). These models have demonstrated promising results, indicating a new era of Artificial Intelligence (AI) that surpasses previous methodologies. Their extensive knowledge and zero-shot capabilities suggest a paradigm shift in developing deep learning solutions, moving from data capturing and algorithm training to just writing appropriate prompts. While the application of these technologies has been explored across various industries, including automotive, there is a notable gap in the scientific literature regarding their use in Driver Monitoring Systems (DMS). This paper presents our initial approach to implementing VLMs in this domain, utilising the Driver Monitoring Dataset to evaluate their performance and discussing their advantages and challenges when implemented in real-world scenarios.
- Abstract(参考訳): 近年,新たなディープラーニングモデル,特にLarge Language Models (LLMs) とVision-Language Models (VLMs) の進展が見られた。
これらのモデルは有望な結果を示し、従来の方法論を超越した人工知能(AI)の新たな時代を示唆している。
彼らの豊富な知識とゼロショット能力は、データキャプチャとアルゴリズムトレーニングから単に適切なプロンプトを書くことへの移行によって、ディープラーニングソリューションの開発におけるパラダイムシフトを示唆している。
これらの技術の適用は、自動車を含む様々な産業で検討されてきたが、運転監視システム(DMS)における使用に関する科学文献には顕著なギャップがある。
本稿では、この領域におけるVLMの実装に対する私たちの最初のアプローチについて、ドライバモニタリングデータセットを用いて、その性能を評価し、現実のシナリオで実装する際の利点と課題について議論する。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Advancements in Visual Language Models for Remote Sensing: Datasets, Capabilities, and Enhancement Techniques [6.783762650831429]
本稿では、視覚言語モデル(VLM)に関する基礎理論と、リモートセンシングで構築されたデータセットについて概観する。
本稿では,VLMのコアコンポーネントに基づいて,改善手法を3つの主要部品に分類し,それらの方法の詳細な紹介と比較を行う。
論文 参考訳(メタデータ) (2024-10-15T13:28:55Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - Delving into Multi-modal Multi-task Foundation Models for Road Scene Understanding: From Learning Paradigm Perspectives [56.2139730920855]
本稿では,道路シーンに特化して設計されたMM-VUFMの系統解析について述べる。
本研究の目的は,タスク特化モデル,統合マルチモーダルモデル,統合マルチタスクモデル,基礎モデル推進技術など,共通プラクティスの包括的概要を提供することである。
我々は、クローズドループ駆動システム、解釈可能性、エンボディドドライブエージェント、世界モデルなど、重要な課題と今後のトレンドに関する洞察を提供する。
論文 参考訳(メタデータ) (2024-02-05T12:47:09Z) - Towards Efficient Generative Large Language Model Serving: A Survey from
Algorithms to Systems [14.355768064425598]
生成型大規模言語モデル(LLM)が最前線に立ち、データとのインタラクション方法に革命をもたらします。
しかし、これらのモデルをデプロイする際の計算強度とメモリ消費は、効率性の観点から大きな課題を呈している。
本研究は,機械学習システム(MLSys)研究の観点から,効率的なLCM提供手法の必要性について考察する。
論文 参考訳(メタデータ) (2023-12-23T11:57:53Z) - Voila-A: Aligning Vision-Language Models with User's Gaze Attention [56.755993500556734]
視覚言語モデル(VLM)を導くために,人間の注意の代用として視線情報を導入する。
本稿では,視線アライメントのための新しいアプローチであるVoila-Aを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:34:01Z) - A Survey of Serverless Machine Learning Model Inference [0.0]
ジェネレーティブAI、コンピュータビジョン、自然言語処理は、AIモデルをさまざまな製品に統合するきっかけとなった。
本調査は,大規模ディープラーニングサービスシステムにおける新たな課題と最適化の機会を要約し,分類することを目的としている。
論文 参考訳(メタデータ) (2023-11-22T18:46:05Z) - Vision Language Models in Autonomous Driving: A Survey and Outlook [26.70381732289961]
視覚言語モデル(VLM)は、その優れた性能と大規模言語モデル(LLM)を活用する能力により、広く注目を集めている。
本稿では,この領域における視覚言語モデルの進歩を包括的かつ体系的に調査し,認識と理解,ナビゲーションと計画,意思決定と制御,エンドツーエンドの自動運転,データ生成などを紹介する。
論文 参考訳(メタデータ) (2023-10-22T21:06:10Z) - Recommender Systems in the Era of Large Language Models (LLMs) [62.0129013439038]
大規模言語モデル(LLM)は自然言語処理(NLP)と人工知能(AI)の分野に革命をもたらした。
我々は, プレトレーニング, ファインチューニング, プロンプティングなどの様々な側面から, LLM を利用したレコメンデータシステムの総合的なレビューを行う。
論文 参考訳(メタデータ) (2023-07-05T06:03:40Z) - A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。
本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文 参考訳(メタデータ) (2023-05-31T13:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。