論文の概要: All You Need for Object Detection: From Pixels, Points, and Prompts to Next-Gen Fusion and Multimodal LLMs/VLMs in Autonomous Vehicles
- arxiv url: http://arxiv.org/abs/2510.26641v1
- Date: Thu, 30 Oct 2025 16:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.898086
- Title: All You Need for Object Detection: From Pixels, Points, and Prompts to Next-Gen Fusion and Multimodal LLMs/VLMs in Autonomous Vehicles
- Title(参考訳): 物体検出に必要なもの - カメラ、ポイント、プロンプトから、自動運転車の次世代核融合・マルチモーダルLDM/VLMまで-
- Authors: Sayed Pedram Haeri Boroujeni, Niloufar Mehrabi, Hazim Alzorgan, Ahmad Sarlak, Mahlagha Fazeli, Abolfazl Razi,
- Abstract要約: 自律走行車(AV)は、インテリジェントな認識、意思決定、制御システムの進歩を通じて、交通の未来を変えつつある。
彼らの成功は、複雑でマルチモーダルな環境での信頼性の高いオブジェクト検出という、ひとつのコア能力と結びついている。
コンピュータビジョン(CV)と人工知能(AI)の最近の進歩は目覚ましい進歩をもたらした。
この調査は、AVにおける物体検出の前方的な分析を提供することによって、そのギャップを埋める。
- 参考スコア(独自算出の注目度): 7.863490977061713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous Vehicles (AVs) are transforming the future of transportation through advances in intelligent perception, decision-making, and control systems. However, their success is tied to one core capability, reliable object detection in complex and multimodal environments. While recent breakthroughs in Computer Vision (CV) and Artificial Intelligence (AI) have driven remarkable progress, the field still faces a critical challenge as knowledge remains fragmented across multimodal perception, contextual reasoning, and cooperative intelligence. This survey bridges that gap by delivering a forward-looking analysis of object detection in AVs, emphasizing emerging paradigms such as Vision-Language Models (VLMs), Large Language Models (LLMs), and Generative AI rather than re-examining outdated techniques. We begin by systematically reviewing the fundamental spectrum of AV sensors (camera, ultrasonic, LiDAR, and Radar) and their fusion strategies, highlighting not only their capabilities and limitations in dynamic driving environments but also their potential to integrate with recent advances in LLM/VLM-driven perception frameworks. Next, we introduce a structured categorization of AV datasets that moves beyond simple collections, positioning ego-vehicle, infrastructure-based, and cooperative datasets (e.g., V2V, V2I, V2X, I2I), followed by a cross-analysis of data structures and characteristics. Ultimately, we analyze cutting-edge detection methodologies, ranging from 2D and 3D pipelines to hybrid sensor fusion, with particular attention to emerging transformer-driven approaches powered by Vision Transformers (ViTs), Large and Small Language Models (SLMs), and VLMs. By synthesizing these perspectives, our survey delivers a clear roadmap of current capabilities, open challenges, and future opportunities.
- Abstract(参考訳): 自律走行車(AV)は、インテリジェントな認識、意思決定、制御システムの進歩を通じて、交通の未来を変えつつある。
しかし、その成功は1つのコア能力、複雑でマルチモーダルな環境での信頼性の高いオブジェクト検出と結びついている。
近年のコンピュータビジョン(CV)と人工知能(AI)の進歩は目覚ましい進歩を導いてきたが、知識がマルチモーダルな認識、文脈的推論、協調的知性にまたがって断片化され続けているため、この分野は依然として重要な課題に直面している。
この調査は、AVにおけるオブジェクト検出を前方から分析することでギャップを埋め、時代遅れのテクニックを再検討するのではなく、ビジョンランゲージモデル(VLM)、大規模言語モデル(LLM)、ジェネレーティブAIといった新しいパラダイムを強調します。
我々はまず、AVセンサの基本スペクトル(カメラ、超音波、LiDAR、レーダー)とその融合戦略を体系的にレビューし、動的駆動環境におけるそれらの能力と限界だけでなく、LLM/VLM駆動型認識フレームワークの最近の進歩と統合する可能性を強調した。
次に、簡単なデータ収集を超えて、エゴ車、インフラベース、協調的なデータセット(例えば、V2V、V2I、V2X、I2I)を配置し、続いてデータ構造と特徴を横断分析するAVデータセットの構造化分類を導入する。
最終的に、2次元および3次元パイプラインからハイブリッドセンサー融合まで、特にビジョントランスフォーマ(ViT)、大小言語モデル(SLM)、VLMによるトランスフォーマー駆動型アプローチに注目しながら、最先端検出手法を解析する。
これらの視点を合成することで、我々の調査は現在の能力、オープン課題、そして将来の機会の明確なロードマップを提供します。
関連論文リスト
- Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey [45.10095869091538]
膨大な画像テキストデータセットに基づいて事前訓練されたLarge Vision-Language Models (VLM) 上に構築されたVLAモデルが、トランスフォーメーションパラダイムとして登場した。
この調査は、ロボット操作のための大規模なVLMベースのVLAモデルの、最初の体系的で分類指向のレビューを提供する。
論文 参考訳(メタデータ) (2025-08-18T16:45:48Z) - Generative AI for Autonomous Driving: Frontiers and Opportunities [145.6465312554513]
この調査は、自律運転スタックにおけるGenAIの役割の包括的合成を提供する。
まず、VAE、GAN、拡散モデル、および大規模言語モデルを含む、現代の生成モデリングの原則とトレードオフを蒸留することから始めます。
我々は、合成データ一般化、エンドツーエンド駆動戦略、高忠実なデジタルツインシステム、スマートトランスポートネットワーク、具体化されたAIへのクロスドメイン転送など、実用的な応用を分類する。
論文 参考訳(メタデータ) (2025-05-13T17:59:20Z) - Multimodal Fusion and Vision-Language Models: A Survey for Robot Vision [49.073964142139495]
マルチモーダル融合法と視覚言語モデルの適用と進歩を体系的に検討する。
セマンティックシーン理解タスクでは、エンコーダデコーダフレームワーク、アテンションベースアーキテクチャ、グラフニューラルネットワークに融合アプローチを分類する。
クロスモーダルアライメント、効率的な融合、リアルタイムデプロイメント、ドメイン適応など、現在の研究における重要な課題を特定します。
論文 参考訳(メタデータ) (2025-04-03T10:53:07Z) - A Survey of World Models for Autonomous Driving [55.520179689933904]
自律運転の最近の進歩は、堅牢な世界モデリングの進歩によって推進されている。
世界モデルは、マルチセンサーデータ、セマンティックキュー、時間ダイナミクスを統合する駆動環境の高忠実度表現を提供する。
今後の研究は、自己指導型表現学習、マルチモーダル融合、高度なシミュレーションにおける重要な課題に対処する必要がある。
論文 参考訳(メタデータ) (2025-01-20T04:00:02Z) - Graph-Based Multi-Modal Sensor Fusion for Autonomous Driving [3.770103075126785]
本稿では,グラフに基づく状態表現の開発に焦点をあてた,マルチモーダルセンサ融合に対する新しいアプローチを提案する。
本稿では,マルチモーダルグラフを融合する最初のオンライン状態推定手法であるSensor-Agnostic Graph-Aware Kalman Filterを提案する。
提案手法の有効性を,合成および実世界の運転データセットを用いた広範囲な実験により検証した。
論文 参考訳(メタデータ) (2024-11-06T06:58:17Z) - Forging Vision Foundation Models for Autonomous Driving: Challenges,
Methodologies, and Opportunities [59.02391344178202]
ビジョンファウンデーションモデル(VFM)は、幅広いAIアプリケーションのための強力なビルディングブロックとして機能する。
総合的なトレーニングデータの不足、マルチセンサー統合の必要性、多様なタスク固有のアーキテクチャは、VFMの開発に重大な障害をもたらす。
本稿では、自動運転に特化したVFMを鍛造する上で重要な課題について述べるとともに、今後の方向性を概説する。
論文 参考訳(メタデータ) (2024-01-16T01:57:24Z) - Recent Advances in Embedding Methods for Multi-Object Tracking: A Survey [71.10448142010422]
マルチオブジェクトトラッキング(MOT)は、動画フレーム全体で対象物を関連付け、移動軌道全体を取得することを目的としている。
埋め込み法はMOTにおける物体の位置推定と時間的同一性関連において重要な役割を担っている。
まず 7 つの異なる視点からMOT への埋め込み手法の奥行き解析による包括的概要を述べる。
論文 参考訳(メタデータ) (2022-05-22T06:54:33Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。