論文の概要: Direction-aware 3D Large Multimodal Models
- arxiv url: http://arxiv.org/abs/2602.19063v1
- Date: Sun, 22 Feb 2026 06:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.464721
- Title: Direction-aware 3D Large Multimodal Models
- Title(参考訳): 方向認識型3次元大規模マルチモーダルモデル
- Authors: Quan Liu, Weihao Xuan, Junjue Wang, Naoto Yokoya, Ling Shao, Shijian Lu,
- Abstract要約: 3次元の大規模マルチモーダルモデルは、方向的質問応答と空間的推論を可能にするためにエゴのポーズに大きく依存する。
本研究では,方向認識型3次元LMMを実現するための新たなパラダイムを再定義し,点クラウドベンチマークにエゴのポーズを同定し補足する。
LL3DA, LL3DA-SONATA, Chat-Scene, 3D-LLAVAなどの複数の3次元LMMバックボーンに対して一貫した改良を行った。
- 参考スコア(独自算出の注目度): 79.33880131492484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D large multimodal models (3D LMMs) rely heavily on ego poses for enabling directional question-answering and spatial reasoning. However, most existing point cloud benchmarks contain rich directional queries but lack the corresponding ego poses, making them inherently ill-posed in 3D large multimodal modelling. In this work, we redefine a new and rigorous paradigm that enables direction-aware 3D LMMs by identifying and supplementing ego poses into point cloud benchmarks and transforming the corresponding point cloud data according to the identified ego poses. We enable direction-aware 3D LMMs with two novel designs. The first is PoseRecover, a fully automatic pose recovery pipeline that matches questions with ego poses from RGB-D video extrinsics via object-frustum intersection and visibility check with Z-buffers. The second is PoseAlign that transforms the point cloud data to be aligned with the identified ego poses instead of either injecting ego poses into textual prompts or introducing pose-encoded features in the projection layers. Extensive experiments show that our designs yield consistent improvements across multiple 3D LMM backbones such as LL3DA, LL3DA-SONATA, Chat-Scene, and 3D-LLAVA, improving ScanRefer mIoU by 30.0% and Scan2Cap LLM-as-judge accuracy by 11.7%. In addition, our approach is simple, generic, and training-efficient, requiring only instruction tuning while establishing a strong baseline for direction-aware 3D-LMMs.
- Abstract(参考訳): 3次元大規模マルチモーダルモデル(3D LMM)は、方向的質問応答と空間的推論を可能にするためにエゴのポーズに大きく依存する。
しかし、ほとんどの既存のポイントクラウドベンチマークは、リッチな指向性クエリを含んでいるが、対応するエゴのポーズが欠如しているため、本質的には3次元の大規模マルチモーダルモデリングにおいて不適切である。
本研究では,方向認識型3D LMMを実現するための新たな厳密なパラダイムを再定義し,エゴのポーズを点クラウドベンチマークに特定・補足し,対応する点クラウドデータを同定したエゴのポーズに従って変換する。
方向認識型3D LMMを2つの新しい設計で実現する。
ひとつは、完全な自動ポーズ回復パイプラインであるPoseRecoverである。これは、質問とRGB-Dビデオエクストリンジックからのエゴポーズとを、オブジェクト-フラストラムの交差点とZバッファによる可視性チェックを通じてマッチングするものだ。
2つ目はPoseAlignで、Egoのポーズをテキストプロンプトに注入するか、プロジェクション層にポーズエンコードされた機能を導入する代わりに、ポイントクラウドデータを識別されたエゴのポーズに合わせるように変換する。
LL3DA, LL3DA-SONATA, Chat-Scene, 3D-LLAVA, ScanRefer mIoUを30.0%改善し, Scan2Cap LLM-as-judge精度を11.7%向上した。
さらに,本手法はシンプルで汎用的で,訓練効率のよいものであり,方向対応3D-LMMの強力なベースラインを確立しつつ,指示調整のみを必要とする。
関連論文リスト
- Advancing 3D Scene Understanding with MV-ScanQA Multi-View Reasoning Evaluation and TripAlign Pre-training Dataset [56.533371387182065]
MV-ScanQAは、新しい3D質問応答データセットである。
本稿では,大規模かつ低コストな2D-3D言語事前学習コーパスTripAlignについて紹介する。
さらに,MV-ScanQAにおける多視点推論のためのベースライン手法であるLEGOを開発し,事前学習した2次元LVLMの知識をTripAlignで3Dドメインに転送する。
論文 参考訳(メタデータ) (2025-08-14T20:35:59Z) - 3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint Transformer [33.42183318484381]
3D-LLaVAは,3D世界の理解,推論,対話において,インテリジェントなアシスタントとして機能するように設計された,シンプルかつ強力な3D LMMである。
3D-LLaVAのコアには、3つの機能を統合する新しいOmni Superpoint Transformer (OST)がある。
論文 参考訳(メタデータ) (2025-01-02T09:33:13Z) - NIMBA: Towards Robust and Principled Processing of Point Clouds With SSMs [9.978766637766373]
データ複製を必要とせずに3次元空間構造を維持できる点雲を1次元配列に変換する手法を提案する。
本手法では位置埋め込みは必要とせず, 精度を保ちながら短いシーケンス長が可能である。
論文 参考訳(メタデータ) (2024-10-31T18:58:40Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。
その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-05-28T16:57:44Z) - Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。
凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。
我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文 参考訳(メタデータ) (2024-04-19T17:58:04Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。