論文の概要: C^2ROPE: Causal Continuous Rotary Positional Encoding for 3D Large Multimodal-Models Reasoning
- arxiv url: http://arxiv.org/abs/2602.10551v1
- Date: Wed, 11 Feb 2026 05:50:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.499586
- Title: C^2ROPE: Causal Continuous Rotary Positional Encoding for 3D Large Multimodal-Models Reasoning
- Title(参考訳): C^2ROPE:3次元大規模マルチモーダルモデル推論のための因果連続回転位置符号化
- Authors: Guanting Ye, Qiyan Zhao, Wenhao Yu, Xiaofeng Zhang, Jianmin Ji, Yanyong Zhang, Ka-Veng Yuen,
- Abstract要約: C2RoPEは視覚処理のための局所空間連続性と空間因果関係を明示的にモデル化する。
まず1次元の時間的位置とカルテシアンに基づく空間座標を統合し、三重項ハイブリッド位置指数を構成する。
Chebyshev Causal Maskingは、2次元空間における画像トークンのChebyshev距離を計算することによって因果依存性を決定する。
- 参考スコア(独自算出の注目度): 21.822856191211184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in 3D Large Multimodal Models (LMMs) built on Large Language Models (LLMs) have established the alignment of 3D visual features with LLM representations as the dominant paradigm. However, the inherited Rotary Position Embedding (RoPE) introduces limitations for multimodal processing. Specifically, applying 1D temporal positional indices disrupts the continuity of visual features along the column dimension, resulting in spatial locality loss. Moreover, RoPE follows the prior that temporally closer image tokens are more causally related, leading to long-term decay in attention allocation and causing the model to progressively neglect earlier visual tokens as the sequence length increases. To address these issues, we propose C^2RoPE, an improved RoPE that explicitly models local spatial Continuity and spatial Causal relationships for visual processing. C^2RoPE introduces a spatio-temporal continuous positional embedding mechanism for visual tokens. It first integrates 1D temporal positions with Cartesian-based spatial coordinates to construct a triplet hybrid positional index, and then employs a frequency allocation strategy to encode spatio-temporal positional information across the three index components. Additionally, we introduce Chebyshev Causal Masking, which determines causal dependencies by computing the Chebyshev distance of image tokens in 2D space. Evaluation results across various benchmarks, including 3D scene reasoning and 3D visual question answering, demonstrate C^2RoPE's effectiveness. The code is be available at https://github.com/ErikZ719/C2RoPE.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく3次元大規模マルチモーダルモデル(LMM)の最近の進歩は,LLM表現を支配的パラダイムとする3次元視覚特徴のアライメントを確立している。
しかし、後継のRotary Position Embedding (RoPE)はマルチモーダル処理の制限を導入している。
具体的には、1次元の時間的位置指標を適用することで、列次元に沿った視覚的特徴の連続性を阻害し、空間的局所性が失われる。
さらに、RoPEは、時間的に近い画像トークンはより因果的に関連しており、注意割当の長期的減衰を招き、シーケンス長が増加するにつれて、モデルを徐々に視覚トークンを無視する。
これらの問題に対処するために,局所的な空間連続性と空間因果関係を視覚処理のために明示的にモデル化する改良されたRoPEであるC^2RoPEを提案する。
C^2RoPEは、視覚トークンのための時空間連続的な位置埋め込み機構を導入する。
まず1次元時間的位置とカルテシアンに基づく空間座標を統合して三重項ハイブリッド位置指数を構築し、次に周波数割当戦略を用いて3つの指数成分の時空間位置情報を符号化する。
さらに,2次元空間における画像トークンのChebyshev距離を計算することで因果依存性を決定するChebyshev Causal Maskingを導入する。
C^2RoPEの有効性を示す3次元シーン推論や3次元視覚質問応答など,様々なベンチマークによる評価結果が得られた。
コードはhttps://github.com/ErikZ719/C2RoPEで入手できる。
関連論文リスト
- PatchAlign3D: Local Feature Alignment for Dense 3D Shape understanding [67.15800065888887]
現在の3次元形状の基礎モデルは、グローバルなタスク(検索、分類)において優れているが、局所的な部分レベルの推論には不十分である。
本稿では,ポイントクラウドから直接,言語対応のパッチレベル機能を生成するエンコーダのみの3Dモデルを提案する。
我々の3Dエンコーダは、テストタイムのマルチビューレンダリングなしで高速なシングルパス推論によるゼロショット3D部分分割を実現する。
論文 参考訳(メタデータ) (2026-01-05T18:55:45Z) - MCA-LLaVA: Manhattan Causal Attention for Reducing Hallucination in Large Vision-Language Models [25.406556604989607]
幻覚はLVLM(Large Vision Language Models)において重要な課題となる
重要な要因として特定されたマルチモーダル特徴の不一致。
MCA-LLaVAは位置モデリングのための画像トークンの1次元配列順序と2次元空間位置を統合する。
論文 参考訳(メタデータ) (2025-07-12T08:09:35Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - SPiKE: 3D Human Pose from Point Cloud Sequences [1.8024397171920885]
3D Human Pose Estimation (HPE) は、RGB画像や深度マップ、点雲などの2次元または3次元表現から、人間の身体のキーポイントを3次元空間内に配置するタスクである。
本稿では,点雲列を用いた3次元HPEの新しい手法であるSPiKEを提案する。
3D HPEのITOPベンチマークの実験では、SPiKEは89.19%のmAPに達し、推論時間を大幅に短縮して最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-09-03T13:22:01Z) - 3D-RPE: Enhancing Long-Context Modeling Through 3D Rotary Position Encoding [12.335958945925437]
3Dロータリー位置(3D-RPE)と呼ばれる3次元球面上の新しい回転位置符号化法を提案する。
3D-RPEは広く使われている2Dロータリーポジション(RoPE)の先進型である。
制御可能な長期崩壊に対して、3D-RPEはチャンクサイズ内での長期崩壊の制御を可能にする。
位置分解能を高めるため、3D-RPEはRoPE上の位置分解能の劣化を軽減することができる。
論文 参考訳(メタデータ) (2024-06-14T10:13:37Z) - MMScan: A Multi-Modal 3D Scene Dataset with Hierarchical Grounded Language Annotations [55.022519020409405]
本稿では,マルチモーダルな3Dシーンデータセットと階層型言語アノテーションを用いたベンチマーク,MMScanを構築した。
結果として得られたマルチモーダルな3Dデータセットは、109kオブジェクトと7.7kリージョン上の1.4Mメタアノテーション付きキャプションと、3Dビジュアルグラウンドと質問応答ベンチマークのための3.04M以上の多様なサンプルを含んでいる。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Memorize What Matters: Emergent Scene Decomposition from Multitraverse [54.487589469432706]
3次元ガウス写像は3次元ガウス写像をベースとしたカメラのみのオフラインマッピングフレームワークである。
3DGMは、同じ領域から複数のRGBビデオをガウスベースの環境マップに変換し、同時に2D短命なオブジェクトセグメンテーションを実行する。
We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and Neural rendering。
論文 参考訳(メタデータ) (2024-05-27T14:11:17Z) - PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic
Occupancy Prediction [72.75478398447396]
本稿では,点雲を効果的かつ包括的に表現する円筒型三重対視図を提案する。
また,LiDAR点雲の距離分布を考慮し,円筒座標系における三点ビューを構築した。
プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。
論文 参考訳(メタデータ) (2023-08-31T17:57:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。