論文の概要: Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI
- arxiv url: http://arxiv.org/abs/2505.05895v1
- Date: Fri, 09 May 2025 09:01:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.217368
- Title: Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI
- Title(参考訳): 視覚接地のための視覚言語モデルの活用と自動車UIの解析
- Authors: Benjamin Raphael Ernhofer, Daniil Prokhorov, Jannica Langner, Dominik Bollmann,
- Abstract要約: 本稿では,自動車インフォテインメントシステムの理解とインタラクションのための視覚言語フレームワークを提案する。
私たちはAutomotiveUI-Bench-4Kをリリースした。
Low-Rank Adaptation (LoRa) を用いて Molmo-7B ベースのモデルを微調整し、パイプラインで生成された推論を組み込む。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Modern automotive infotainment systems require intelligent and adaptive solutions to handle frequent User Interface (UI) updates and diverse design variations. We introduce a vision-language framework for understanding and interacting with automotive infotainment systems, enabling seamless adaptation across different UI designs. To further support research in this field, we release AutomotiveUI-Bench-4K, an open-source dataset of 998 images with 4,208 annotations. Additionally, we present a synthetic data pipeline to generate training data. We fine-tune a Molmo-7B-based model using Low-Rank Adaptation (LoRa) and incorporating reasoning generated by our pipeline, along with visual grounding and evaluation capabilities. The fine-tuned Evaluative Large Action Model (ELAM) achieves strong performance on AutomotiveUI-Bench-4K (model and dataset are available on Hugging Face) and demonstrating strong cross-domain generalization, including a +5.2% improvement on ScreenSpot over the baseline model. Notably, our approach achieves 80.4% average accuracy on ScreenSpot, closely matching or even surpassing specialized models for desktop, mobile, and web, such as ShowUI, despite being trained for the infotainment domain. This research investigates how data collection and subsequent fine-tuning can lead to AI-driven progress within automotive UI understanding and interaction. The applied method is cost-efficient and fine-tuned models can be deployed on consumer-grade GPUs.
- Abstract(参考訳): 現代の自動車インフォテインメントシステムは、頻繁なユーザインタフェース(UI)更新と多様な設計のバリエーションを扱うために、インテリジェントで適応的なソリューションを必要とする。
自動車インフォテインメントシステムの理解とインタラクションのための視覚言語フレームワークを導入し,様々なUI設計をシームレスに適用する。
この分野での研究をさらに支援するため、私たちはAutomotiveUI-Bench-4Kをリリースした。
さらに,学習データを生成するための合成データパイプラインを提案する。
我々は,Low-Rank Adaptation (LoRa) を用いてMomo-7Bベースのモデルを微調整し,パイプラインが生成した推論と視覚的グラウンドと評価機能を取り入れた。
細調整された評価大型アクションモデル(ELAM)は、AutomotiveUI-Bench-4K(Hugging Faceでモデルとデータセットが利用可能)上で強力なパフォーマンスを実現し、ベースラインモデルよりもScreenSpotを+5.2%改善するなど、強力なクロスドメインの一般化を示す。
特に,ScreenSpotでは,インフォテインメント領域のトレーニングを受けたにも関わらず,ScreenSpotでは80.4%の平均精度が達成され,デスクトップ,モバイル,ShowUIなどの専用モデルとの密接なマッチングや,さらにはWebを超越している。
本研究は,データ収集とその後の微調整が,自動車UIの理解とインタラクションにおけるAI駆動の進展にどのように寄与するかを考察する。
適用方法はコスト効率が良く、微調整されたモデルをコンシューマグレードのGPUにデプロイできる。
関連論文リスト
- Data Scaling Laws for End-to-End Autonomous Driving [83.85463296830743]
16時間から8192時間に及ぶ内部駆動データセット上での簡易エンド・ツー・エンド駆動アーキテクチャの性能評価を行った。
具体的には、目標の性能向上を達成するために、どの程度のトレーニングデータが必要かを調査する。
論文 参考訳(メタデータ) (2025-04-06T03:23:48Z) - UI-TARS: Pioneering Automated GUI Interaction with Native Agents [58.18100825673032]
本稿では,GUIエージェントのネイティブモデルであるUI-TARSを紹介する。
OSWorldベンチマークでは、UI-TARSはスコアが24.6、50ステップが22.7、15ステップが22.7でクロード(それぞれ22.0と14.9)を上回っている。
論文 参考訳(メタデータ) (2025-01-21T17:48:10Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - LingoQA: Visual Question Answering for Autonomous Driving [14.620546951115328]
本稿では,自律運転における視覚的質問応答のための新しいデータセットとベンチマークであるLingoQAを紹介する。
データセットには28Kのユニークなショートビデオシナリオと419Kアノテーションが含まれている。
私たちのベンチマークでは、視覚言語モデルは、質問の59.6%に対して、人間の96.6%に対して真に反応する。
論文 参考訳(メタデータ) (2023-12-21T18:40:34Z) - Trajeglish: Traffic Modeling as Next-Token Prediction [67.28197954427638]
自動運転開発における長年の課題は、記録された運転ログからシードされた動的運転シナリオをシミュレートすることだ。
車両、歩行者、サイクリストが運転シナリオでどのように相互作用するかをモデル化するために、離散シーケンスモデリングのツールを適用します。
我々のモデルはSim Agents Benchmarkを上回り、リアリズムメタメトリックの先行作業の3.3%、インタラクションメトリックの9.9%を上回ります。
論文 参考訳(メタデータ) (2023-12-07T18:53:27Z) - Multi-modal Machine Learning for Vehicle Rating Predictions Using Image,
Text, and Parametric Data [3.463438487417909]
正確な車両評価予測のためのマルチモーダル学習モデルを提案する。
モデルはパラメトリック仕様、テキスト記述、車両の画像から特徴を同時に学習する。
マルチモーダルモデルの説明力は, 非モーダルモデルよりも4%~12%高いことがわかった。
論文 参考訳(メタデータ) (2023-05-24T14:58:49Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。