論文の概要: RI-Mamba: Rotation-Invariant Mamba for Robust Text-to-Shape Retrieval
- arxiv url: http://arxiv.org/abs/2602.11673v1
- Date: Thu, 12 Feb 2026 07:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.703301
- Title: RI-Mamba: Rotation-Invariant Mamba for Robust Text-to-Shape Retrieval
- Title(参考訳): RIマンバ:ロバストテキスト・形状検索のための回転不変マンバ
- Authors: Khanh Nguyen, Dasith de Silva Edirimuni, Ghulam Mubashar Hassan, Ajmal Mian,
- Abstract要約: RI-マンバは点雲に対する最初の回転不変状態空間モデルである。
RI-Mambaは地球と局所の参照フレームを定義し、幾何学からポーズを遠ざける。
我々の戦略は本質的に状態空間モデルと互換性があり、線形時間で機能する。
- 参考スコア(独自算出の注目度): 36.41046448860009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D assets have rapidly expanded in quantity and diversity due to the growing popularity of virtual reality and gaming. As a result, text-to-shape retrieval has become essential in facilitating intuitive search within large repositories. However, existing methods require canonical poses and support few object categories, limiting their real-world applicability where objects can belong to diverse classes and appear in random orientations. To address this challenge, we propose RI-Mamba, the first rotation-invariant state-space model for point clouds. RI-Mamba defines global and local reference frames to disentangle pose from geometry and uses Hilbert sorting to construct token sequences with meaningful geometric structure while maintaining rotation invariance. We further introduce a novel strategy to compute orientational embeddings and reintegrate them via feature-wise linear modulation, effectively recovering spatial context and enhancing model expressiveness. Our strategy is inherently compatible with state-space models and operates in linear time. To scale up retrieval, we adopt cross-modal contrastive learning with automated triplet generation, allowing training on diverse datasets without manual annotation. Extensive experiments demonstrate RI-Mamba's superior representational capacity and robustness, achieving state-of-the-art performance on the OmniObject3D benchmark across more than 200 object categories under arbitrary orientations. Our code will be made available at https://github.com/ndkhanh360/RI-Mamba.git.
- Abstract(参考訳): 3Dアセットは、仮想現実やゲームの人気が高まり、量と多様性が急速に拡大している。
その結果,大規模リポジトリ内での直感的な検索を容易にするためには,テキスト・ツー・シェイプ検索が不可欠になっている。
しかし、既存の手法では標準的なポーズを必要とし、オブジェクトカテゴリをほとんどサポートしておらず、オブジェクトが多様なクラスに属し、ランダムな向きに現れるような実世界の適用性を制限している。
この課題に対処するために、ポイントクラウドのための最初の回転不変状態空間モデルであるRI-Mambaを提案する。
RI-Mambaは、幾何からのポーズをアンタングルするグローバルおよび局所参照フレームを定義し、ヒルベルトソートを用いて、回転不変性を維持しながら意味のある幾何学構造を持つトークンシーケンスを構築する。
さらに, 配向埋め込みを計算し, 特徴量線形変調により再積分し, 空間的文脈を効果的に回復し, モデル表現性を向上する新たな戦略を導入する。
我々の戦略は本質的に状態空間モデルと互換性があり、線形時間で機能する。
検索をスケールアップするために、自動三重項生成によるクロスモーダルコントラスト学習を採用し、手動のアノテーションを使わずに多様なデータセットのトレーニングを可能にする。
大規模な実験では、RI-Mambaの表現能力とロバスト性が向上し、任意の向きの下で200以上のオブジェクトカテゴリにまたがるOmniObject3Dベンチマークで最先端のパフォーマンスを達成した。
私たちのコードはhttps://github.com/ndkhanh360/RI-Mamba.gitで公開されます。
関連論文リスト
- A-SCoRe: Attention-based Scene Coordinate Regression for wide-ranging scenarios [1.2093553114715083]
A-ScoReは、意味のある高セマンティックな2Dディスクリプタを生成するために、ディスクリプタマップレベルの注意を利用するアテンションベースのモデルである。
その結果,本手法はより軽量でフレキシブルでありながら,複数のベンチマークでState-of-the-artメソッドに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-03-18T07:39:50Z) - UniMamba: Unified Spatial-Channel Representation Learning with Group-Efficient Mamba for LiDAR-based 3D Object Detection [53.785766442201094]
LiDAR 3D検出の最近の進歩は、ポイントクラウド空間からグローバルな依存関係をキャプチャするTransformerベースのフレームワークの有効性を示している。
トランスフォーマーのかなりの数の3Dボクセルと二次的な複雑さのため、トランスフォーマーに供給する前に複数のシーケンスがグループ化され、受容野が制限される。
2次元視覚タスクの分野で達成された状態空間モデル(SSM)の印象的な性能に触発されて、我々は新しい統一マンバ(UniMamba)を提案する。
特に、UniMambaブロックは、主にローカリティモデリング、Zオーダーシリアライゼーション、局所グローバルシーケンシャルアグリゲータで構成されている。
論文 参考訳(メタデータ) (2025-03-15T06:22:31Z) - ILPO-NET: Network for the invariant recognition of arbitrary volumetric patterns in 3D [2.7624021966289605]
本稿では,局所的な空間パターン配向に本質的に不変な畳み込み操作を伴う任意の形状のパターンを扱う新しいアプローチであるILPO-Netを提案する。
我々のアーキテクチャは、新しい畳み込み演算子をシームレスに統合し、MedMNISTやCATHといった様々なボリュームデータセットをベンチマークすると、優れた性能を示す。
私たちのコードはhttps://gricad.gitlab.univ-grenoble-alpes.fr/GruLab/ILPO/-/tree/main/ILPONetで公開されています。
論文 参考訳(メタデータ) (2024-03-28T17:32:01Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Generative Category-Level Shape and Pose Estimation with Semantic
Primitives [27.692997522812615]
本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。
カテゴリ内変動に対処するために、様々な形状を統一された潜在空間にエンコードするセマンティックプリミティブ表現を採用する。
提案手法は,実世界のデータセットにおいて,SOTAのポーズ推定性能とより優れた一般化を実現する。
論文 参考訳(メタデータ) (2022-10-03T17:51:54Z) - Adjoint Rigid Transform Network: Task-conditioned Alignment of 3D Shapes [86.2129580231191]
Adjoint Rigid Transform (ART) Networkは、さまざまな3Dネットワークと統合可能なニューラルネットワークモジュールである。
ARTは入力の形状を学習した標準方向に回転させることを学び、多くのタスクに欠かせない。
さらなる研究のために、コードと事前訓練されたモデルをリリースします。
論文 参考訳(メタデータ) (2021-02-01T20:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。