論文の概要: B4DL: A Benchmark for 4D LiDAR LLM in Spatio-Temporal Understanding
- arxiv url: http://arxiv.org/abs/2508.05269v1
- Date: Thu, 07 Aug 2025 11:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.831167
- Title: B4DL: A Benchmark for 4D LiDAR LLM in Spatio-Temporal Understanding
- Title(参考訳): B4DL:時空間理解のための4次元LiDAR LLMのベンチマーク
- Authors: Changho Choi, Youngwoo Shin, Gyojin Han, Dong-Jae Lee, Junmo Kim,
- Abstract要約: 我々は,4次元LiDAR理解上でMLLMを訓練し,評価するためのベンチマークであるB4DLを紹介する。
本稿では,スケーラブルなデータ生成パイプラインとMLLMモデルを提案する。
- 参考スコア(独自算出の注目度): 23.446113957661503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding dynamic outdoor environments requires capturing complex object interactions and their evolution over time. LiDAR-based 4D point clouds provide precise spatial geometry and rich temporal cues, making them ideal for representing real-world scenes. However, despite their potential, 4D LiDAR remains underexplored in the context of Multimodal Large Language Models (MLLMs) due to the absence of high-quality, modality-specific annotations and the lack of MLLM architectures capable of processing its high-dimensional composition. To address these challenges, we introduce B4DL, a new benchmark specifically designed for training and evaluating MLLMs on 4D LiDAR understanding. In addition, we propose a scalable data generation pipeline and an MLLM model that, for the first time, directly processes raw 4D LiDAR by bridging it with language understanding. Combined with our dataset and benchmark, our model offers a unified solution for spatio-temporal reasoning in dynamic outdoor environments. We provide rendered 4D LiDAR videos, generated dataset, and inference outputs on diverse scenarios at: https://mmb4dl.github.io/mmb4dl/
- Abstract(参考訳): 動的屋外環境を理解するには、複雑な物体の相互作用と時間の経過とともにその進化を捉える必要がある。
LiDARベースの4Dポイント雲は、正確な空間幾何学と豊富な時間的手がかりを提供し、現実世界のシーンを表現するのに最適である。
しかし、4D LiDARは、高品質でモダリティ固有のアノテーションの欠如と、その高次元構成を処理できるMLLMアーキテクチャの欠如により、MLLM(Multimodal Large Language Models)の文脈でまだ探索されていない。
これらの課題に対処するために,4次元LiDAR理解上でMLLMをトレーニングおよび評価するために設計された新しいベンチマークであるB4DLを紹介する。
さらに、スケーラブルなデータ生成パイプラインとMLLMモデルを提案し、言語理解でブリッジすることで、初めて生の4D LiDARを直接処理する。
我々のモデルとデータセットとベンチマークを組み合わせることで、動的屋外環境における時空間推論のための統一的なソリューションを提供する。
レンダリングされた4D LiDARビデオ、生成されたデータセット、さまざまなシナリオでの推論出力を提供する。
関連論文リスト
- LiDARCrafter: Dynamic 4D World Modeling from LiDAR Sequences [10.426609103049572]
LiDARCrafterは、4D LiDARの生成と編集のための統一されたフレームワークである。
あらゆるレベルの忠実さ、可制御性、時間的一貫性において、最先端のパフォーマンスを達成する。
コードとベンチマークはコミュニティにリリースされている。
論文 参考訳(メタデータ) (2025-08-05T17:59:56Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - LLaVA-4D: Embedding SpatioTemporal Prompt into LMMs for 4D Scene Understanding [55.81291976637705]
視覚的4Dシーン理解のための時間的プロンプトを備えた汎用LMMフレームワークを提案する。
このプロンプトは、3D位置と1D時間を動的に認識された4D座標埋め込みに符号化することで生成される。
4次元シーン理解において,異なるタスクにまたがる手法の有効性を実証するために実験を行った。
論文 参考訳(メタデータ) (2025-05-18T06:18:57Z) - 4D-Bench: Benchmarking Multi-modal Large Language Models for 4D Object Understanding [83.37551035659119]
4Dオブジェクトを理解する上でのMLLMの能力を評価するために、一般に標準化されたベンチマークは存在しない。
4Dオブジェクト理解におけるMLLMの能力を評価する最初のベンチマークである4D-Benchを紹介する。
論文 参考訳(メタデータ) (2025-03-22T17:55:53Z) - SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability [58.46310813774538]
大規模言語モデル (LMLM) は時間的あるいは空間的局所化において顕著な進歩を遂げた。
しかし、彼らは時間的なビデオグラウンドの実行に苦慮している。
この制限は2つの大きな課題に起因している。
時間的ビデオグラウンドティングを具備したMLLMVLであるSpaceLMを紹介する。
論文 参考訳(メタデータ) (2025-03-18T07:40:36Z) - 4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [115.67081491747943]
動的3Dシーン表現と新しいビュー合成はAR/VRおよびメタバースアプリケーションの実現に不可欠である。
我々は,その基礎となる4次元体積を近似として,時間変化の異なる3次元シーンの再構成を再構成する。
ストレージのボトルネックに対処するため、メモリフットプリントを効果的に削減するいくつかのコンパクトなバリエーションを導出する。
論文 参考訳(メタデータ) (2024-12-30T05:30:26Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Diffusion4D: Fast Spatial-temporal Consistent 4D Generation via Video Diffusion Models [116.31344506738816]
高速でスケーラブルな4Dコンテンツ生成のための新しいフレームワーク textbfDiffusion4D を提案する。
ダイナミックな3Dアセットの軌道ビューを合成できる4D対応ビデオ拡散モデルを開発した。
提案手法は, 生成効率と4次元幾何整合性の観点から, 従来の最先端技術を超えている。
論文 参考訳(メタデータ) (2024-05-26T17:47:34Z) - LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR
Understanding [36.66305190056456]
LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、命令追従および2次元画像理解において有望であることを示す。
本稿では,LiDARデータを入力として取り込んだLiDAR-LLMについて述べる。
我々のLiDAR-LLMの中心的な洞察は、言語モデリング問題としての3次元屋外シーン認識の再構築である。
論文 参考訳(メタデータ) (2023-12-21T17:52:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。