論文の概要: Scalable Object Detection in the Car Interior With Vision Foundation Models
- arxiv url: http://arxiv.org/abs/2508.19651v1
- Date: Wed, 27 Aug 2025 07:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.549912
- Title: Scalable Object Detection in the Car Interior With Vision Foundation Models
- Title(参考訳): 視覚基礎モデルを用いた車室内のスケーラブル物体検出
- Authors: Bálint Mészáros, Ahmet Firintepe, Sebastian Schmidt, Stephan Günnemann,
- Abstract要約: 本研究では,内部シーン理解のための新しいオブジェクト検出・局所化(ODAL)フレームワークを提案する。
当社のアプローチでは、分散アーキテクチャを通じてビジョン基盤モデルを活用し、オンボードとクラウドの間で計算タスクを分割する。
モデル性能をベンチマークするために,検出と局所化の総合評価のための新しい指標であるOdaLbenchを紹介する。
注目すべきは、我々の微調整したOdaL-LLaVAモデルがOdaL$_score$の89%を達成し、ベースライン性能が71%向上し、GPT-4oを20%近く上回ったことです。
- 参考スコア(独自算出の注目度): 42.958409172092225
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI tasks in the car interior like identifying and localizing externally introduced objects is crucial for response quality of personal assistants. However, computational resources of on-board systems remain highly constrained, restricting the deployment of such solutions directly within the vehicle. To address this limitation, we propose the novel Object Detection and Localization (ODAL) framework for interior scene understanding. Our approach leverages vision foundation models through a distributed architecture, splitting computational tasks between on-board and cloud. This design overcomes the resource constraints of running foundation models directly in the car. To benchmark model performance, we introduce ODALbench, a new metric for comprehensive assessment of detection and localization.Our analysis demonstrates the framework's potential to establish new standards in this domain. We compare the state-of-the-art GPT-4o vision foundation model with the lightweight LLaVA 1.5 7B model and explore how fine-tuning enhances the lightweight models performance. Remarkably, our fine-tuned ODAL-LLaVA model achieves an ODAL$_{score}$ of 89%, representing a 71% improvement over its baseline performance and outperforming GPT-4o by nearly 20%. Furthermore, the fine-tuned model maintains high detection accuracy while significantly reducing hallucinations, achieving an ODAL$_{SNR}$ three times higher than GPT-4o.
- Abstract(参考訳): 外部から導入されたオブジェクトの特定やローカライズといった車内AIタスクは、パーソナルアシスタントの応答品質に不可欠である。
しかし、車載システムの計算資源は非常に制約を受けており、車両内でのそのようなソリューションの展開を制限している。
この制限に対処するために,内部シーン理解のための新しいオブジェクト検出と位置決め(ODAL)フレームワークを提案する。
当社のアプローチでは、分散アーキテクチャを通じてビジョン基盤モデルを活用し、オンボードとクラウドの間で計算タスクを分割する。
この設計は、車内でファンデーションモデルを直接実行する際のリソース制約を克服する。
モデル性能をベンチマークするために,検出とローカライゼーションを包括的に評価する新しい指標であるODALbenchを紹介した。
現状のGPT-4o視覚基礎モデルと軽量LLaVA 1.57Bモデルを比較し,微調整によって軽量モデルの性能が向上する方法について検討する。
注目すべきは、我々の微調整したOdaL-LLaVAモデルがOdaL$_{score}を89%で達成し、ベースライン性能よりも71%向上し、GPT-4oを20%近く上回ったことです。
さらに、微調整モデルでは、高い検出精度を維持しながら幻覚を著しく低減し、GPT-4oの3倍のOdaL$_{SNR}を達成している。
関連論文リスト
- VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling [60.341503853471494]
本稿では,新しいカメラ視点と視覚摂動の下で,視覚言語行動モデルが急激に劣化することを示す。
本稿では,軽量で学習可能な更新によって視覚表現を再分類するワンショット適応フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T16:16:13Z) - An Analytical Framework to Enhance Autonomous Vehicle Perception for Smart Cities [1.9923531555025622]
道路上の複数の物体を正確に知覚し、運転者の認識を予測して車の動作を制御するモデルを開発する必要がある。
本稿では,AVの認識システムによる運転環境の理解を可能にするユーティリティベース分析モデルを提案する。
論文 参考訳(メタデータ) (2025-10-15T07:34:22Z) - RoHOI: Robustness Benchmark for Human-Object Interaction Detection [84.78366452133514]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、コンテキスト認識支援を可能にするロボット・ヒューマン・アシストに不可欠である。
HOI検出のための最初のベンチマークを導入し、様々な課題下でモデルのレジリエンスを評価する。
我々のベンチマークであるRoHOIは、HICO-DETとV-COCOデータセットに基づく20の汚職タイプと、新しいロバストネスにフォーカスしたメトリクスを含んでいる。
論文 参考訳(メタデータ) (2025-07-12T01:58:04Z) - Leveraging Vision-Language Models for Visual Grounding and Analysis of Automotive UI [0.0]
この研究は、自動車用UIの理解と操作を容易にするビジョン言語フレームワークを導入している。
この分野での研究を支援するために、AutomotiveUI-Bench-4Kもリリースされた。
Molmo-7B ベースのモデルはローランド適応 (LoRa) を用いて微調整され、生成した推論と視覚的グラウンドと評価能力が組み込まれている。
論文 参考訳(メタデータ) (2025-05-09T09:01:52Z) - GADS: A Super Lightweight Model for Head Pose Estimation [0.0]
Grouped Attention Deep Sets (GADS)はDeep Setフレームワークに基づいた新しいアーキテクチャである。
ランドマークを領域にグループ化することで、計算の複雑さを減らします。
私たちのモデルは7.5times$小さめで、現在の最も軽量な最先端モデルよりも25times$高速に実行されます。
論文 参考訳(メタデータ) (2025-04-22T09:53:25Z) - A Light Perspective for 3D Object Detection [46.23578780480946]
本稿では,最先端のDeep Learning技術を特徴抽出に取り入れた新しい手法を提案する。
私たちのモデルであるNextBEVは、ResNet50やMobileNetV3といった既存の機能抽出ツールを超えています。
これらの軽量な提案を融合することにより、VoxelNetベースのモデルの精度を2.93%向上し、PointPillarベースのモデルのF1スコアを約20%改善しました。
論文 参考訳(メタデータ) (2025-03-10T10:03:23Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。