Fugu-MT 論文翻訳(概要): SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs

論文の概要: SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs

arxiv url: http://arxiv.org/abs/2602.22716v1
Date: Thu, 26 Feb 2026 07:42:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.58076
Title: SoPE: Spherical Coordinate-Based Positional Embedding for Enhancing Spatial Perception of 3D LVLMs
Title（参考訳）: SoPE: 3次元LVLMの空間知覚を高める球面座標に基づく位置埋め込み
Authors: Guanting Ye, Qiyan Zhao, Wenhao Yu, Liangyu Yuan, Mingkai Li, Xiaofeng Zhang, Jianmin Ji, Yanyong Zhang, Qing Jiang, Ka-Veng Yuen,
Abstract要約: Spherical Coordinate-based Positional Embedding (SoPE)を紹介する。本手法は,3次元球面座標空間に点-クラウドトークンのインデックスをマッピングし,空間位置と方向角の統一モデリングを可能にする。この定式化は、点クラウドデータの固有の幾何学的構造を保持し、空間的認識を高め、マルチモーダル学習のためのより一貫性があり表現力のある幾何学的表現をもたらす。
参考スコア（独自算出の注目度）: 21.891285551179365
License: http://creativecommons.org/licenses/by/4.0/
Abstract: 3D Large Vision-Language Models (3D LVLMs) built upon Large Language Models (LLMs) have achieved remarkable progress across various multimodal tasks. However, their inherited position-dependent modeling mechanism, Rotary Position Embedding (RoPE), remains suboptimal for 3D multimodal understanding. The vanilla RoPE formulation fails to preserve essential three-dimensional spatial structures when encoding 3D tokens, and its relative distance computation overlooks angular dependencies, hindering the model's ability to capture directional variations in visual representations. To overcome these limitations, we introduce Spherical Coordinate-based Positional Embedding (SoPE). Our method maps point-cloud token indices into a 3D spherical coordinate space, enabling unified modeling of spatial locations and directional angles. This formulation preserves the inherent geometric structure of point-cloud data, enhances spatial awareness, and yields more consistent and expressive geometric representations for multimodal learning. In addition, we introduce a multi-scale frequency mixing strategy to fuse feature information across different frequency domains. Experimental results on multiple 3D scene benchmarks validate the effectiveness of our approach, while real-world deployment experiments further demonstrate its strong generalization capability.
Abstract（参考訳）: LLM(Large Language Models)上に構築された3次元LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な進歩を遂げている。しかし, 位置依存型モデリング機構であるRotary Position Embedding (RoPE) は, 3次元マルチモーダル理解に最適である。バニラ RoPE の定式化は、3次元トークンを符号化する際に必須な3次元空間構造を保たず、その相対距離計算は角依存性を見落とし、モデルが視覚表現の方向変化を捉える能力を妨げている。これらの制限を克服するために、球面座標に基づく位置埋め込み(SoPE)を導入する。本手法は,3次元球面座標空間に点-クラウドトークンのインデックスをマッピングし,空間位置と方向角の統一モデリングを可能にする。この定式化は、点クラウドデータの固有の幾何学的構造を保持し、空間的認識を高め、マルチモーダル学習のためのより一貫性があり表現力のある幾何学的表現をもたらす。さらに、異なる周波数領域にまたがる特徴情報を融合するマルチスケールの周波数混合戦略を導入する。複数の3次元シーンベンチマークによる実験結果から,本手法の有効性が検証された。

関連論文リスト

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection [21.94827944503605]
マルチカメラ3Dオブジェクト検出(MC3D)は、マルチセンサー物理エージェントの展開により注目を集めている。現在のソリューションは、単純にメタカメラを統一表現に用いているが、包括的な考慮を欠いている。 CoIn3Dは、ソース設定から未表示のターゲット設定への強力な転送可能性を実現する汎用的なMC3Dフレームワークである。
論文参考訳（メタデータ） (2026-03-05T10:49:46Z)
VLMFusionOcc3D: VLM Assisted Multi-Modal 3D Semantic Occupancy Prediction [0.0]
VLMFusionOcc3Dは、自律運転における高密度な3Dセマンティック占有率予測のための堅牢なマルチモーダルフレームワークである。我々は,車両メタデータと気象条件付きプロンプトを利用した動的ゲーティング機構であるWeather-Aware Adaptive Fusionを導入する。我々のアプローチは、複雑な都市ナビゲーションのためのスケーラブルで堅牢なソリューションを提供するため、挑戦的な気象シナリオにおいて、大幅な改善を実現している。
論文参考訳（メタデータ） (2026-03-03T05:22:28Z)
TIGaussian: Disentangle Gaussians for Spatial-Awared Text-Image-3D Alignment [58.46706158310462]
TIGaussian は 3D Gaussian Splatting (3DGS) 特性を利用して、相互モダリティアライメントを強化する。我々のマルチブランチ3DGSトークン化器は、3DGS構造の固有の性質をコンパクトな潜在表現に分解する。テキスト3D投影モジュールは、テキスト3Dアライメントを改善するために、3D機能をテキスト埋め込みスペースに適応的にマッピングする。
論文参考訳（メタデータ） (2026-01-27T06:30:32Z)
Lemon: A Unified and Scalable 3D Multimodal Model for Universal Spatial Understanding [80.66591664266744]
Lemonは3Dポイントクラウドパッチと言語トークンを単一のシーケンスとして処理する統合トランスフォーマーアーキテクチャである。 3次元データの複雑さに対処するため,空間的コンテキストを保存するための構造化パッチやトークン化方式を開発した。 Lemonは、総合的な3D理解と推論タスクにまたがって、最先端のパフォーマンスを確立する。
論文参考訳（メタデータ） (2025-12-14T20:02:43Z)
Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。 OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。 OCRはモデルを補完し、全体にわたって論理的にソートする。
論文参考訳（メタデータ） (2025-11-17T09:53:41Z)
3dSAGER: Geospatial Entity Resolution over 3D Objects (Technical Report) [7.378893412842889]
3dSAGERは3Dオブジェクト上の空間的エンティティ解決のためのエンドツーエンドパイプラインである。本稿では,マッチングペアの複雑な幾何学的特徴をキャプチャする,空間参照非依存のデファクトチュール化機構を提案する。また、訓練されたモデルを活用して、ハイリコール候補セットを効率的に生成する、軽量で解釈可能な新しいブロッキング手法であるBKAFIを提案する。
論文参考訳（メタデータ） (2025-11-09T09:35:45Z)
MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。 MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文参考訳（メタデータ） (2025-10-31T06:54:27Z)
Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文参考訳（メタデータ） (2025-06-17T07:04:07Z)
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。 VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文参考訳（メタデータ） (2025-05-26T17:56:30Z)
PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文参考訳（メタデータ） (2023-08-31T17:57:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。