論文の概要: BeLLA: End-to-End Birds Eye View Large Language Assistant for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2512.06096v1
- Date: Fri, 05 Dec 2025 19:04:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.184566
- Title: BeLLA: End-to-End Birds Eye View Large Language Assistant for Autonomous Driving
- Title(参考訳): BeLLA: 自律運転のための大規模言語アシスタントをエンド・ツー・エンドで見る
- Authors: Karthik Mohan, Sonam Singh, Amit Arvind Kale,
- Abstract要約: 自動運転における質問応答のための大規模言語モデルと統合された360 BEV表現を接続するエンドツーエンドアーキテクチャであるBeLLAを提案する。
我々は主にNuScenes-QAとDriveLMという2つのベンチマークを用いて作業を評価し、BeLLAは空間的推論を必要とする問題に対する既存のアプローチを一貫して上回ります。
- 参考スコア(独自算出の注目度): 0.20391237204597365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of Vision-Language models (VLMs) and Multimodal Language Models (MLLMs) in autonomous driving research has significantly reshaped the landscape by enabling richer scene understanding, context-aware reasoning, and more interpretable decision-making. However, a lot of existing work often relies on either single-view encoders that fail to exploit the spatial structure of multi-camera systems or operate on aggregated multi-view features, which lack a unified spatial representation, making it more challenging to reason about ego-centric directions, object relations, and the wider context. We thus present BeLLA, an end-to-end architecture that connects unified 360° BEV representations with a large language model for question answering in autonomous driving. We primarily evaluate our work using two benchmarks - NuScenes-QA and DriveLM, where BeLLA consistently outperforms existing approaches on questions that require greater spatial reasoning, such as those involving relative object positioning and behavioral understanding of nearby objects, achieving up to +9.3% absolute improvement in certain tasks. In other categories, BeLLA performs competitively, demonstrating the capability of handling a diverse range of questions.
- Abstract(参考訳): 自律運転研究におけるビジョン・ランゲージモデル(VLM)とマルチモーダル言語モデル(MLLM)の急速な発展は、より豊かなシーン理解、文脈認識推論、より解釈可能な意思決定を可能にして、ランドスケープを大きく変えた。
しかし、既存の作業の多くは、マルチカメラシステムの空間構造を活用できないシングルビューエンコーダや、統合された空間表現が欠けている集約されたマルチビュー機能に頼っているため、エゴ中心の方向、オブジェクトの関係、より広いコンテキストの推論が困難である。
そこで我々は,統合された360度BEV表現と,自律運転における質問応答のための大規模言語モデルとを接続する,エンドツーエンドアーキテクチャであるBeLLAを提案する。
我々は主に、NuScenes-QA(英語版)とDriveLM(英語版)という2つのベンチマークを用いて、BeLLAは、相対的なオブジェクトの位置決めや近くのオブジェクトの行動的理解など、より大きな空間的推論を必要とする問題に対する既存のアプローチを一貫して上回り、特定のタスクにおいて最大で9.3%の改善を達成する。
他のカテゴリでは、BeLLAは競争力があり、多様な質問を扱う能力を示している。
関連論文リスト
- REM: Evaluating LLM Embodied Spatial Reasoning through Multi-Frame Trajectories [19.741468026765062]
本稿では,空間推論のための制御可能な3次元環境を用いたベンチマークREM(Reasoning over Embodied Multi-Frame Trajectories)を紹介する。
REMは、オブジェクトの永続性/識別、空間的関係、動的エンボディされた視点における数値的追跡などの重要な側面を体系的に評価する。
評価の結果、最高の性能を示す現在のモデルでは、全体的な性能が期待できるが、人間によって容易に扱える程度の複雑性レベルでは信頼性が低下していることがわかった。
論文 参考訳(メタデータ) (2025-11-30T05:20:22Z) - Actial: Activate Spatial Reasoning Ability of Multimodal Large Language Models [75.45940282834327]
本稿では,MLLMの空間的推論能力の評価と改善を目的とした視点学習を紹介する。
多様な視点とそれに対応する質問応答対を持つ100Kオブジェクト中心のイメージペアからなるViewpoint-100Kデータセットを提案する。
このアプローチでは2段階の微調整戦略を採用し,複数のタスクにまたがる大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-11-03T14:27:00Z) - Multimodal Spatial Reasoning in the Large Model Era: A Survey and Benchmarks [108.15756345836901]
大規模モデルを用いたマルチモーダル空間推論タスクの包括的レビューを行う。
我々は、視覚言語ナビゲーションやアクションモデルを含む、具体的AIの進歩についてレビューする。
我々は,新しいセンサによる空間的理解に寄与する音声やエゴセントリックビデオなどの新たなモダリティを考察する。
論文 参考訳(メタデータ) (2025-10-29T17:55:43Z) - STSBench: A Spatio-temporal Scenario Benchmark for Multi-modal Large Language Models in Autonomous Driving [16.602141801221364]
STSBenchは、自律運転のための視覚言語モデル(VLM)の総合的な理解をベンチマークするためのフレームワークである。
このベンチマークでは、複数のビューにまたがる43の多様なシナリオが特徴で、その結果、971人の人間による検証された複数選択の質問が生まれている。
徹底的な評価により、複雑な環境における基本的なトラフィックダイナミクスを推論する既存のモデルの能力の欠点が明らかになる。
論文 参考訳(メタデータ) (2025-06-06T16:25:22Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - An Embodied Generalist Agent in 3D World [67.16935110789528]
本稿では,3次元世界における知覚,接地,推論,計画,行動に優れた多モードジェネリストエージェントLEOを紹介する。
我々は,多種多様なオブジェクトレベルおよびシーンレベルのタスクからなる大規模データセットを収集する。
3Dキャプション,質問応答,具体的推論,ナビゲーション,操作など,多岐にわたるLEOの卓越した習熟度を実証した。
論文 参考訳(メタデータ) (2023-11-18T01:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。