論文の概要: Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2505.08725v1
- Date: Tue, 13 May 2025 16:36:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.672511
- Title: Extending Large Vision-Language Model for Diverse Interactive Tasks in Autonomous Driving
- Title(参考訳): 自律運転における多言語対話作業のための大規模視覚言語モデルの拡張
- Authors: Zongchuang Zhao, Haoyu Fu, Dingkang Liang, Xin Zhou, Dingyuan Zhang, Hongwei Xie, Bing Wang, Xiang Bai,
- Abstract要約: DriveMonkeyは、大きなビジュアル言語モデルと空間プロセッサをシームレスに統合するフレームワークである。
我々の実験によると、DriveMonkeyは一般的なLVLMよりも優れており、特に3D視覚グラウンドタスクにおいて9.86%の顕著な改善が達成されている。
- 参考スコア(独自算出の注目度): 45.82124136705798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Large Visual-Language Models (LVLMs) have significantly advanced image understanding. Their comprehension and reasoning capabilities enable promising applications in autonomous driving scenarios. However, existing research typically focuses on front-view perspectives and partial objects within scenes, struggling to achieve comprehensive scene understanding. Meanwhile, existing LVLMs suffer from the lack of mapping relationship between 2D and 3D and insufficient integration of 3D object localization and instruction understanding. To tackle these limitations, we first introduce NuInteract, a large-scale dataset with over 1.5M multi-view image language pairs spanning dense scene captions and diverse interactive tasks. Furthermore, we propose DriveMonkey, a simple yet effective framework that seamlessly integrates LVLMs with a spatial processor using a series of learnable queries. The spatial processor, designed as a plug-and-play component, can be initialized with pre-trained 3D detectors to improve 3D perception. Our experiments show that DriveMonkey outperforms general LVLMs, especially achieving a 9.86% notable improvement on the 3D visual grounding task. The dataset and code will be released at https://github.com/zc-zhao/DriveMonkey.
- Abstract(参考訳): LVLM(Large Visual-Language Models)は、画像の理解が大幅に進歩している。
彼らの理解と推論能力は、自律運転シナリオにおける有望なアプリケーションを可能にする。
しかし、既存の研究は通常、シーン内のフロントビューの視点や部分的なオブジェクトに焦点を当てており、総合的なシーン理解の達成に苦慮している。
一方、既存のLVLMは2次元と3次元のマッピング関係の欠如と、3次元オブジェクトのローカライゼーションと命令理解の不十分な統合に悩まされている。
これらの制限に対処するために、我々はまず、密集したシーンキャプションと多様なインタラクティブタスクにまたがる1.5万以上のマルチビューイメージ言語ペアを持つ大規模データセットであるNuInteractを紹介した。
さらに,学習可能な一連のクエリを用いて,LVLMと空間プロセッサをシームレスに統合する,シンプルで効果的なフレームワークであるDriveMonkeyを提案する。
プラグアンドプレイコンポーネントとして設計された空間プロセッサは、事前訓練された3D検出器で初期化することができ、3D知覚を改善することができる。
我々の実験によると、DriveMonkeyは一般的なLVLMよりも優れており、特に3D視覚グラウンドタスクにおいて9.86%の顕著な改善が達成されている。
データセットとコードはhttps://github.com/zc-zhao/DriveMonkey.comでリリースされる。
関連論文リスト
- NVSMask3D: Hard Visual Prompting with Camera Pose Interpolation for 3D Open Vocabulary Instance Segmentation [14.046423852723615]
本稿では,3次元ガウシアン・スプレイティングに基づくハードビジュアル・プロンプト手法を導入し,対象物に関する多様な視点を創出する。
提案手法は現実的な3次元視点をシミュレートし,既存のハード・ビジュアル・プロンプトを効果的に増強する。
このトレーニングフリー戦略は、事前のハード・ビジュアル・プロンプトとシームレスに統合され、オブジェクト記述的特徴が強化される。
論文 参考訳(メタデータ) (2025-04-20T14:39:27Z) - MM-Spatial: Exploring 3D Spatial Understanding in Multimodal LLMs [13.678235444299286]
MLLM(Multimodal large language model)は、2次元の視覚的理解に優れるが、3次元空間を推論する能力には限界がある。
本研究では,1)新しい教師付き微調整データセットの導入,2)屋内シーンに焦点を当てた新しい評価ベンチマークを導入するために,オープンセットアノテーションを用いた大規模高品質3Dシーンデータを活用する。
論文 参考訳(メタデータ) (2025-03-17T12:34:22Z) - g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks [62.74304008688472]
Generalizable 3D-Language Feature Fields (g3D-LF)は、大規模な3D言語データセットで事前訓練された3D表現モデルである。
論文 参考訳(メタデータ) (2024-11-26T01:54:52Z) - PAVLM: Advancing Point Cloud based Affordance Understanding Via Vision-Language Model [4.079327215055764]
3Dオブジェクト上で動作可能な領域を識別する作業であるアフォーマンス理解は、ロボットシステムが物理的な世界の中で関わり、操作できるようにする上で重要な役割を担っている。
視覚言語モデル(VLM)は高レベルの推論において優れているが、効果的な人間とロボットの相互作用に必要な微妙な物理的特性の把握には不十分である。
PAVLMは、事前訓練された言語モデルに埋め込まれた広範なマルチモーダル知識を利用して、ポイントクラウドの3Dアベイランス理解を強化する革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-10-15T12:53:42Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models [113.18524940863841]
本調査では,大規模言語モデルによる3Dデータの処理,理解,生成を可能にする方法論の概要について概説する。
我々の研究は、点雲からニューラル放射場(NeRF)まで、様々な3次元データ表現にまたがっている。
3Dシーン理解、キャプション、質問応答、対話などのタスクにおいて、LLMとの統合を検討する。
論文 参考訳(メタデータ) (2024-05-16T16:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。