論文の概要: Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI
- arxiv url: http://arxiv.org/abs/2505.05895v3
- Date: Tue, 05 Aug 2025 16:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.165673
- Title: Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI
- Title(参考訳): 視覚接地のための視覚言語モデルの活用と自動車UIの解析
- Authors: Benjamin Raphael Ernhofer, Daniil Prokhorov, Jannica Langner, Dominik Bollmann,
- Abstract要約: この研究は、自動車用UIの理解と操作を容易にするビジョン言語フレームワークを導入している。
この分野での研究を支援するために、AutomotiveUI-Bench-4Kもリリースされた。
Molmo-7B ベースのモデルはローランド適応 (LoRa) を用いて微調整され、生成した推論と視覚的グラウンドと評価能力が組み込まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern automotive infotainment systems necessitate intelligent and adaptive solutions to manage frequent User Interface (UI) updates and diverse design variations. This work introduces a vision-language framework to facilitate the understanding of and interaction with automotive UIs, enabling seamless adaptation across different UI designs. To support research in this field, AutomotiveUI-Bench-4K, an open-source dataset comprising 998 images with 4,208 annotations, is also released. Additionally, a data pipeline for generating training data is presented. A Molmo-7B-based model is fine-tuned using Low-Rank Adaptation (LoRa), incorporating generated reasoning along with visual grounding and evaluation capabilities. The fine-tuned Evaluative Large Action Model (ELAM) achieves strong performance on AutomotiveUI-Bench-4K (model and dataset are available on Hugging Face). The approach demonstrates strong cross-domain generalization, including a +5.6% improvement on ScreenSpot over the baseline model. An average accuracy of 80.8% is achieved on ScreenSpot, closely matching or surpassing specialized models for desktop, mobile, and web, despite being trained primarily on the automotive domain. This research investigates how data collection and subsequent fine-tuning can lead to AI-driven advancements in automotive UI understanding and interaction. The applied method is cost-efficient, and fine-tuned models can be deployed on consumer-grade GPUs.
- Abstract(参考訳): 現代の自動車インフォテインメントシステムは、頻繁なユーザインタフェース(UI)のアップデートと多様な設計のバリエーションを管理するために、インテリジェントで適応的なソリューションを必要とする。
この作業は、自動車UIの理解と操作を容易にするビジョン言語フレームワークを導入し、異なるUI設計をシームレスに適応できるようにする。
この分野での研究を支援するために、AutomotiveUI-Bench-4Kもリリースされた。
さらに、トレーニングデータを生成するためのデータパイプラインも提示される。
Molmo-7B ベースのモデルはローランド適応 (LoRa) を用いて微調整され、生成した推論と視覚的グラウンドと評価能力が組み込まれている。
細調整された評価大型アクションモデル(ELAM)は、AutomotiveUI-Bench-4K(Hugging Faceでモデルとデータセットが利用可能)上で強力なパフォーマンスを達成する。
このアプローチは、ベースラインモデルよりもScreenSpotを+5.6%改善するなど、強力なクロスドメインの一般化を示している。
平均80.8%の精度はScreenSpotで達成され、主に自動車の領域で訓練されているにもかかわらず、デスクトップ、モバイル、ウェブの特別なモデルと密に一致または上回っている。
本研究では、データ収集とその後の微調整が、自動車UIの理解とインタラクションにおけるAI駆動の進歩にどのように寄与するかを考察する。
適用方法はコスト効率が高く、微調整されたモデルをコンシューマグレードのGPUにデプロイすることができる。
関連論文リスト
- Data Scaling Laws for End-to-End Autonomous Driving [83.85463296830743]
16時間から8192時間に及ぶ内部駆動データセット上での簡易エンド・ツー・エンド駆動アーキテクチャの性能評価を行った。
具体的には、目標の性能向上を達成するために、どの程度のトレーニングデータが必要かを調査する。
論文 参考訳(メタデータ) (2025-04-06T03:23:48Z) - EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models [64.18350535770357]
マルチモーダル推論の効率を高めるために,大規模視覚言語モデルの自動プルーニング手法を提案する。
提案手法では,所望のプルーニングポリシーを探索するために,少数のサンプルのみを活用する。
視覚的質問応答のためのScienceQA, Vizwiz, MM-vet, LLaVA-Benchデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2025-03-19T16:07:04Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - LingoQA: Visual Question Answering for Autonomous Driving [14.620546951115328]
本稿では,自律運転における視覚的質問応答のための新しいデータセットとベンチマークであるLingoQAを紹介する。
データセットには28Kのユニークなショートビデオシナリオと419Kアノテーションが含まれている。
私たちのベンチマークでは、視覚言語モデルは、質問の59.6%に対して、人間の96.6%に対して真に反応する。
論文 参考訳(メタデータ) (2023-12-21T18:40:34Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - Tryage: Real-time, intelligent Routing of User Prompts to Large Language
Models [1.0878040851637998]
Hugging Faceエコシステムには20万以上のモデルがあり、ユーザーは多面的およびデータドメインに適したモデルを選択し、最適化する。
本稿では,言語モデルルータを利用した文脈認識型ルーティングシステムTryageを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:48:24Z) - Multi-modal Machine Learning for Vehicle Rating Predictions Using Image,
Text, and Parametric Data [3.463438487417909]
正確な車両評価予測のためのマルチモーダル学習モデルを提案する。
モデルはパラメトリック仕様、テキスト記述、車両の画像から特徴を同時に学習する。
マルチモーダルモデルの説明力は, 非モーダルモデルよりも4%~12%高いことがわかった。
論文 参考訳(メタデータ) (2023-05-24T14:58:49Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。