Fugu-MT 論文翻訳(概要): Direction-aware 3D Large Multimodal Models

論文の概要: Direction-aware 3D Large Multimodal Models

arxiv url: http://arxiv.org/abs/2602.19063v1
Date: Sun, 22 Feb 2026 06:31:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.464721
Title: Direction-aware 3D Large Multimodal Models
Title（参考訳）: 方向認識型3次元大規模マルチモーダルモデル
Authors: Quan Liu, Weihao Xuan, Junjue Wang, Naoto Yokoya, Ling Shao, Shijian Lu,
Abstract要約: 3次元の大規模マルチモーダルモデルは、方向的質問応答と空間的推論を可能にするためにエゴのポーズに大きく依存する。本研究では,方向認識型3次元LMMを実現するための新たなパラダイムを再定義し,点クラウドベンチマークにエゴのポーズを同定し補足する。 LL3DA, LL3DA-SONATA, Chat-Scene, 3D-LLAVAなどの複数の3次元LMMバックボーンに対して一貫した改良を行った。
参考スコア（独自算出の注目度）: 79.33880131492484
License: http://creativecommons.org/licenses/by/4.0/
Abstract: 3D large multimodal models (3D LMMs) rely heavily on ego poses for enabling directional question-answering and spatial reasoning. However, most existing point cloud benchmarks contain rich directional queries but lack the corresponding ego poses, making them inherently ill-posed in 3D large multimodal modelling. In this work, we redefine a new and rigorous paradigm that enables direction-aware 3D LMMs by identifying and supplementing ego poses into point cloud benchmarks and transforming the corresponding point cloud data according to the identified ego poses. We enable direction-aware 3D LMMs with two novel designs. The first is PoseRecover, a fully automatic pose recovery pipeline that matches questions with ego poses from RGB-D video extrinsics via object-frustum intersection and visibility check with Z-buffers. The second is PoseAlign that transforms the point cloud data to be aligned with the identified ego poses instead of either injecting ego poses into textual prompts or introducing pose-encoded features in the projection layers. Extensive experiments show that our designs yield consistent improvements across multiple 3D LMM backbones such as LL3DA, LL3DA-SONATA, Chat-Scene, and 3D-LLAVA, improving ScanRefer mIoU by 30.0% and Scan2Cap LLM-as-judge accuracy by 11.7%. In addition, our approach is simple, generic, and training-efficient, requiring only instruction tuning while establishing a strong baseline for direction-aware 3D-LMMs.
Abstract（参考訳）: 3次元大規模マルチモーダルモデル(3D LMM)は、方向的質問応答と空間的推論を可能にするためにエゴのポーズに大きく依存する。しかし、ほとんどの既存のポイントクラウドベンチマークは、リッチな指向性クエリを含んでいるが、対応するエゴのポーズが欠如しているため、本質的には3次元の大規模マルチモーダルモデリングにおいて不適切である。本研究では,方向認識型3D LMMを実現するための新たな厳密なパラダイムを再定義し,エゴのポーズを点クラウドベンチマークに特定・補足し,対応する点クラウドデータを同定したエゴのポーズに従って変換する。方向認識型3D LMMを2つの新しい設計で実現する。ひとつは、完全な自動ポーズ回復パイプラインであるPoseRecoverである。これは、質問とRGB-Dビデオエクストリンジックからのエゴポーズとを、オブジェクト-フラストラムの交差点とZバッファによる可視性チェックを通じてマッチングするものだ。 2つ目はPoseAlignで、Egoのポーズをテキストプロンプトに注入するか、プロジェクション層にポーズエンコードされた機能を導入する代わりに、ポイントクラウドデータを識別されたエゴのポーズに合わせるように変換する。 LL3DA, LL3DA-SONATA, Chat-Scene, 3D-LLAVA, ScanRefer mIoUを30.0%改善し, Scan2Cap LLM-as-judge精度を11.7%向上した。さらに,本手法はシンプルで汎用的で,訓練効率のよいものであり,方向対応3D-LMMの強力なベースラインを確立しつつ,指示調整のみを必要とする。

関連論文リスト

Advancing 3D Scene Understanding with MV-ScanQA Multi-View Reasoning Evaluation and TripAlign Pre-training Dataset [56.533371387182065]
MV-ScanQAは、新しい3D質問応答データセットである。本稿では,大規模かつ低コストな2D-3D言語事前学習コーパスTripAlignについて紹介する。さらに,MV-ScanQAにおける多視点推論のためのベースライン手法であるLEGOを開発し,事前学習した2次元LVLMの知識をTripAlignで3Dドメインに転送する。
論文参考訳（メタデータ） (2025-08-14T20:35:59Z)
Empowering Large Language Models with 3D Situation Awareness [84.12071023036636]
3Dと2Dの主な違いは、3Dシーンにおける自我中心のオブザーバーの状況が変化し、異なる記述をもたらすことである。本研究では,データ収集時の走査軌道を利用して状況認識データセットを自動的に生成する手法を提案する。本研究では,観測者の視点の位置と方向を明示的に予測する状況接地モジュールを導入し,LLMが3次元シーンで状況記述をグラウンド化できるようにする。
論文参考訳（メタデータ） (2025-03-29T09:34:16Z)
Exploring the Potential of Encoder-free Architectures in 3D LMMs [40.43146298677712]
本稿では,エンコーダをベースとした3次元大規模マルチモーダルモデルの課題を軽減するために,エンコーダフリーアーキテクチャの可能性を初めて包括的に検討する。以上の結果から,エンコーダフリーアーキテクチャは3次元理解分野におけるエンコーダベースアーキテクチャの代替として有望であることが示された。
論文参考訳（メタデータ） (2025-02-13T18:59:45Z)
3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文参考訳（メタデータ） (2025-01-28T04:31:19Z)
3D-LLaVA: Towards Generalist 3D LMMs with Omni Superpoint Transformer [33.42183318484381]
3D-LLaVAは,3D世界の理解,推論,対話において,インテリジェントなアシスタントとして機能するように設計された,シンプルかつ強力な3D LMMである。 3D-LLaVAのコアには、3つの機能を統合する新しいOmni Superpoint Transformer (OST)がある。
論文参考訳（メタデータ） (2025-01-02T09:33:13Z)
NIMBA: Towards Robust and Principled Processing of Point Clouds With SSMs [9.978766637766373]
データ複製を必要とせずに3次元空間構造を維持できる点雲を1次元配列に変換する手法を提案する。本手法では位置埋め込みは必要とせず, 精度を保ちながら短いシーケンス長が可能である。
論文参考訳（メタデータ） (2024-10-31T18:58:40Z)
LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文参考訳（メタデータ） (2024-08-14T10:00:16Z)
Is a 3D-Tokenized LLM the Key to Reliable Autonomous Driving? [66.6886931183372]
我々は,LDMと1層線形プロジェクタを接続する3Dトークン化器として,DETR方式の3Dパーセプトロンを導入する。その単純さにもかかわらず、Atlasは3D検出とエゴ計画の両方で優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-05-28T16:57:44Z)
Unified Scene Representation and Reconstruction for 3D Large Language Models [40.693839066536505]
既存のアプローチは、基底真理(GT)幾何または補助モデルによって再構成された3次元シーンから点雲を抽出する。凍結した2次元基礎モデルを用いて、Uni3DR2の3次元幾何学的および意味的認識表現特徴を抽出する。我々の学習した3D表現は、再構築プロセスに貢献するだけでなく、LLMにとって貴重な知識も提供します。
論文参考訳（メタデータ） (2024-04-19T17:58:04Z)
PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。 PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文参考訳（メタデータ） (2023-11-20T18:57:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。