論文の概要: HMR3D: Hierarchical Multimodal Representation for 3D Scene Understanding with Large Vision-Language Model
- arxiv url: http://arxiv.org/abs/2511.22961v1
- Date: Fri, 28 Nov 2025 08:06:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.81299
- Title: HMR3D: Hierarchical Multimodal Representation for 3D Scene Understanding with Large Vision-Language Model
- Title(参考訳): HMR3D:大規模視覚言語モデルを用いた3次元シーン理解のための階層型マルチモーダル表現
- Authors: Chen Li, Eric Peh, Basura Fernando,
- Abstract要約: 大規模視覚言語モデル (VLM) は3次元シーン理解に大きな可能性を示唆している。
既存のVLMベースのアプローチは、通常、VLMの埋め込み空間と3Dシーンの特徴を一致させる。
本稿では3次元シーン推論のための新しい階層型マルチモーダル表現を提案する。
- 参考スコア(独自算出の注目度): 14.277165215664425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large vision-language models (VLMs) have shown significant promise for 3D scene understanding. Existing VLM-based approaches typically align 3D scene features with the VLM's embedding space. However, this implicit alignment often yields suboptimal performance due to the scarcity of 3D data and the inherent complexity of spatial relationships in 3D environments. To address these limitations, we propose a novel hierarchical multimodal representation for 3D scene reasoning that explicitly aligns with VLMs at the input space by leveraging both multi-view images and text descriptions. The text descriptions capture spatial relationships by referencing the 3D coordinates of detected objects, while the multi-view images include a top-down perspective and four directional views (forward, left, right, and backward), ensuring comprehensive scene coverage. Additionally, we introduce a hierarchical feature representation that aggregates patch-level image features into view-level and scene-level representations, enabling the model to reason over both local and global scene context. Experimental results on both situated 3D Q&A and general 3D Q&A benchmarks demonstrate the effectiveness of our approach.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)の最近の進歩は、3Dシーン理解に有意な可能性を示唆している。
既存のVLMベースのアプローチは、通常、VLMの埋め込み空間と3Dシーンの特徴を一致させる。
しかし、この暗黙のアライメントは、3Dデータの不足と、3D環境における空間的関係の固有の複雑さのために、しばしば最適以下の性能をもたらす。
これらの制約に対処するために,マルチビュー画像とテキスト記述の両方を活用することで,入力空間におけるVLMと明示的に整合する3次元シーン推論のための新しい階層型マルチモーダル表現を提案する。
テキスト記述は、検出対象の3次元座標を参照することにより空間的関係を捉え、マルチビュー画像は、トップダウン視点と4方向ビュー(前方、左、右、後方)を含み、包括的なシーンカバレッジを確保する。
さらに、階層的な特徴表現を導入し、パッチレベルの画像特徴をビューレベルおよびシーンレベルの表現に集約し、局所的およびグローバルなシーンコンテキストの両方をモデルが推論できるようにする。
位置する3D Q&Aと一般的な3D Q&Aベンチマークの両方の実験結果から,本手法の有効性が示された。
関連論文リスト
- Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - Empowering Large Language Models with 3D Situation Awareness [84.12071023036636]
3Dと2Dの主な違いは、3Dシーンにおける自我中心のオブザーバーの状況が変化し、異なる記述をもたらすことである。
本研究では,データ収集時の走査軌道を利用して状況認識データセットを自動的に生成する手法を提案する。
本研究では,観測者の視点の位置と方向を明示的に予測する状況接地モジュールを導入し,LLMが3次元シーンで状況記述をグラウンド化できるようにする。
論文 参考訳(メタデータ) (2025-03-29T09:34:16Z) - Video-3D LLM: Learning Position-Aware Video Representation for 3D Scene Understanding [19.382210260928776]
Video-3D LLMは3Dシーンをダイナミックビデオとして扱い、3D位置エンコーディングをこれらの表現に組み込む。
本モデルは,複数の3次元シーン理解ベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-11-30T14:28:53Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。