論文の概要: MambaTron: Efficient Cross-Modal Point Cloud Enhancement using Aggregate Selective State Space Modeling
- arxiv url: http://arxiv.org/abs/2501.16384v1
- Date: Sat, 25 Jan 2025 05:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:40:26.636340
- Title: MambaTron: Efficient Cross-Modal Point Cloud Enhancement using Aggregate Selective State Space Modeling
- Title(参考訳): MambaTron: Aggregate Selective State Space Modelingを用いた効率的なクロスモーダルポイントクラウド拡張
- Authors: Sai Tarun Inaganti, Gennady Petrenko,
- Abstract要約: マンバは自己保持機構の効率的な代替品である。
我々は,ネットワークのビルディングブロックとして機能するMamba-TransformerセルであるMambaTronを紹介する。
我々のモデルは現在の最先端技術に匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Point cloud enhancement is the process of generating a high-quality point cloud from an incomplete input. This is done by filling in the missing details from a reference like the ground truth via regression, for example. In addition to unimodal image and point cloud reconstruction, we focus on the task of view-guided point cloud completion, where we gather the missing information from an image, which represents a view of the point cloud and use it to generate the output point cloud. With the recent research efforts surrounding state-space models, originally in natural language processing and now in 2D and 3D vision, Mamba has shown promising results as an efficient alternative to the self-attention mechanism. However, there is limited research towards employing Mamba for cross-attention between the image and the input point cloud, which is crucial in multi-modal problems. In this paper, we introduce MambaTron, a Mamba-Transformer cell that serves as a building block for our network which is capable of unimodal and cross-modal reconstruction which includes view-guided point cloud completion.We explore the benefits of Mamba's long-sequence efficiency coupled with the Transformer's excellent analytical capabilities through MambaTron. This approach is one of the first attempts to implement a Mamba-based analogue of cross-attention, especially in computer vision. Our model demonstrates a degree of performance comparable to the current state-of-the-art techniques while using a fraction of the computation resources.
- Abstract(参考訳): ポイントクラウドの強化は、不完全な入力から高品質なポイントクラウドを生成するプロセスである。
これは例えば、レグレッションを通じて、基礎となる真実のような参照から欠落した詳細を埋めることによって行われる。
単調な画像と点雲の再構成に加えて、ビュー誘導の点雲完了のタスクに焦点を合わせ、点雲のビューを表す画像から欠落した情報を収集し、出力点雲を生成する。
状態空間モデルに関する最近の研究は、元々自然言語処理で、現在は2Dと3Dのビジョンで行われているが、Mambaは自己認識機構に代わる効果的な代替手段として有望な結果を示している。
しかし,マルチモーダル問題において重要な画像と入力点クラウド間の交差注意のために,Mambaを用いた研究は限られている。
本稿では,Mamba-Transformer セルである MambaTron について紹介する。Mamba-Transformer セルはネットワークのビルディングブロックとして機能し,ビュー誘導点雲の完備化を含む一様・クロスモーダルな再構築が可能であり,このMamba-Transformer の長周期効率と,MambaTron による優れた解析能力の相乗効果を考察する。
このアプローチは、特にコンピュータビジョンにおいて、マンバに基づくクロスアテンションのアナログを実装する最初の試みの1つである。
本モデルでは,計算資源のごく一部を使用しながら,現在の最先端技術に匹敵する性能を示す。
関連論文リスト
- MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - Exploring contextual modeling with linear complexity for point cloud segmentation [43.36716250540622]
効率的なポイントクラウドセグメンテーションアーキテクチャの鍵となるコンポーネントを同定する。
我々は,Mambaが線形計算複雑性を特徴とし,トランスフォーマーに比べて優れたデータと推論効率を提供することを示した。
さらに、ポイントクラウドセグメンテーションのための標準のMambaをさらに強化し、その2つの重要な欠点を特定します。
論文 参考訳(メタデータ) (2024-10-28T16:56:30Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - Pamba: Enhancing Global Interaction in Point Clouds via State Space Model [37.375866491592305]
我々は、SSMベースのアーキテクチャであるMambaをポイントクラウドドメインに導入し、線形複雑性の下で強力なグローバルモデリング機能を備えた新しいアーキテクチャであるPambaを提案する。
Pambaは、ScanNet v2、ScanNet200、S3DIS、nuScenesなど、いくつかの3Dポイントクラウドセグメンテーションタスクの最先端結果を取得する。
論文 参考訳(メタデータ) (2024-06-25T10:23:53Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Mamba3D: Enhancing Local Features for 3D Point Cloud Analysis via State Space Model [18.30032389736101]
状態空間モデル(SSM)に基づくMambaモデルは、線形複雑性のみを持つ複数の領域でTransformerより優れている。
我々は,局所的特徴抽出を強化するために,ポイントクラウド学習に適した状態空間モデルであるMamba3Dを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:20:27Z) - Point Cloud Mamba: Point Cloud Learning via State Space Model [73.7454734756626]
我々は,マンバをベースとしたポイントクラウド法が,トランスフォーマや多層パーセプトロン(MLP)に基づく従来手法よりも優れていることを示す。
特に,マルチ層パーセプトロン(MLP)を用いて,マンバをベースとした点雲法が従来手法より優れていることを示す。
Point Cloud Mambaは、最先端(SOTA)のポイントベースメソッドであるPointNeXtを超え、ScanNN、ModelNet40、ShapeNetPart、S3DISデータセット上での新たなSOTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-01T18:59:03Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。