論文の概要: Nd-BiMamba2: A Unified Bidirectional Architecture for Multi-Dimensional Data Processing
- arxiv url: http://arxiv.org/abs/2411.15380v1
- Date: Fri, 22 Nov 2024 23:45:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:18.480332
- Title: Nd-BiMamba2: A Unified Bidirectional Architecture for Multi-Dimensional Data Processing
- Title(参考訳): Nd-BiMamba2:多次元データ処理のための統一双方向アーキテクチャ
- Authors: Hao Liu,
- Abstract要約: 我々はNd-BiMamba2という新しい多次元双方向ニューラルネットワークアーキテクチャを提案する。
Nd-BiMamba2は、1D、2D、3Dデータを効率的に処理する。
- 参考スコア(独自算出の注目度): 5.705623864954382
- License:
- Abstract: Deep learning models often require specially designed architectures to process data of different dimensions, such as 1D time series, 2D images, and 3D volumetric data. Existing bidirectional models mainly focus on sequential data, making it difficult to scale effectively to higher dimensions. To address this issue, we propose a novel multi-dimensional bidirectional neural network architecture, named Nd-BiMamba2, which efficiently handles 1D, 2D, and 3D data. Nd-BiMamba2 is based on the Mamba2 module and introduces innovative bidirectional processing mechanisms and adaptive padding strategies to capture bidirectional information in multi-dimensional data while maintaining computational efficiency. Unlike existing methods that require designing specific architectures for different dimensional data, Nd-BiMamba2 adopts a unified architecture with a modular design, simplifying development and maintenance costs. To verify the portability and flexibility of Nd-BiMamba2, we successfully exported it to ONNX and TorchScript and tested it on different hardware platforms (e.g., CPU, GPU, and mobile devices). Experimental results show that Nd-BiMamba2 runs efficiently on multiple platforms, demonstrating its potential in practical applications. The code is open-source: https://github.com/Human9000/nd-Mamba2-torch
- Abstract(参考訳): ディープラーニングモデルは、1D時系列、2D画像、3Dボリュームデータなどの異なる次元のデータを処理するために、特別に設計されたアーキテクチャを必要とすることが多い。
既存の双方向モデルは、主にシーケンシャルなデータに焦点を当てており、高次元に効果的にスケールすることが困難である。
この問題に対処するために,Nd-BiMamba2という,1D,2D,3Dデータを効率的に処理する新しい多次元双方向ニューラルネットワークアーキテクチャを提案する。
Nd-BiMamba2はMamba2モジュールをベースとして,多次元データから双方向情報を捕捉し,計算効率を保ちながら,革新的な双方向処理機構と適応型パディング戦略を導入している。
異なる次元データのために特定のアーキテクチャを設計する必要がある既存の方法とは異なり、Nd-BiMamba2はモジュラー設計の統一アーキテクチャを採用し、開発とメンテナンスのコストを簡素化する。
Nd-BiMamba2のポータビリティと柔軟性を検証するため、我々はそれをONNXとTorchScriptにエクスポートし、異なるハードウェアプラットフォーム(CPU、GPU、モバイルデバイスなど)でテストしました。
実験の結果, Nd-BiMamba2は複数のプラットフォーム上で効率的に動作し, 実用化の可能性を示した。
コードはオープンソースである。 https://github.com/Human9000/nd-Mamba2-torch
関連論文リスト
- V2M: Visual 2-Dimensional Mamba for Image Representation Learning [68.51380287151927]
Mambaは、フレキシブルな設計と、1Dシーケンスを処理するための効率的なハードウェア性能のために、広く注目を集めている。
最近の研究では、マンバを2D画像をパッチに平らにすることで視覚領域に適用し、それらを1Dシークエンスとして扱うことが試みられている。
2次元空間における画像トークンを直接処理する完全解として,視覚的2次元マンバモデルを提案する。
論文 参考訳(メタデータ) (2024-10-14T11:11:06Z) - Language-Image Models with 3D Understanding [59.499585515469974]
LV3Dと呼ばれる2Dおよび3Dのための大規模事前学習データセットを開発した。
次に,新しいMLLMであるCube-LLMを導入し,LV3Dで事前学習する。
純粋なデータスケーリングは、3D特有のアーキテクチャ設計やトレーニング目的を使わずに、強力な3D知覚能力を実現することを示す。
論文 参考訳(メタデータ) (2024-05-06T17:57:27Z) - Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data [26.457571615782985]
状態空間モデルに基づくMambaは、テキストシーケンスをモデル化するための同等のパフォーマンスを実現することが示されている。
本稿では,Mambaアーキテクチャを任意の多次元データに拡張した汎用設計であるMamba-NDを提案する。
我々は,Mamba-NDが,多次元ベンチマークにおける最先端技術と性能の競争力を示すことを示す。
論文 参考訳(メタデータ) (2024-02-08T18:30:50Z) - VMamba: Visual State Space Model [98.0517369083152]
状態空間言語モデルであるMambaを、線形時間複雑性を持つビジョンバックボーンであるVMambaに適合させる。
VMambaのコアには2D Selective Scan (SS2D)モジュールを備えたVisual State-Space (VSS)ブロックのスタックがある。
論文 参考訳(メタデータ) (2024-01-18T17:55:39Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding [96.95120198412395]
本稿では,3次元形状の全体言語記述を自動的に生成するトリオモーダル事前学習フレームワークを提案する。
入力として3Dデータしか必要とせず、手動の3Dアノテーションを必要としないため、大規模なデータセットにスケーラブルである。
NNとShapeNetの2つの大規模3Dデータセットの実験を行い、これらを3Dポイントクラウド、キャプション、トレーニングのための言語という3つのモーダルデータセットで拡張する。
実験により、NN-2は、ゼロショット3D分類、ファインタニングによる標準3D分類、3D3Dという3つの下流タスクにおいて有意義な利点を示すことが示された。
論文 参考訳(メタデータ) (2023-05-14T23:14:09Z) - Neural Attentive Circuits [93.95502541529115]
我々は、NAC(Neural Attentive Circuits)と呼ばれる汎用的でモジュラーなニューラルアーキテクチャを導入する。
NACは、ドメイン知識を使わずに、ニューラルネットワークモジュールのパラメータ化と疎結合を学習する。
NACは推論時に8倍のスピードアップを達成するが、性能は3%以下である。
論文 参考訳(メタデータ) (2022-10-14T18:00:07Z) - Improved Brain Age Estimation with Slice-based Set Networks [18.272915375351914]
本稿では,脳波予測のための新しいアーキテクチャを提案する。
提案アーキテクチャは, ディープ2D-CNNモデルを用いて, それぞれの2次元スライスをMRIで符号化することによって機能する。
次に、セットネットワークまたは置換不変層を用いて、これらの2Dスライス符号化の情報を組み合わせる。
英国のBiobankデータセットを用いたBrainAGE予測問題の実験では、置換不変層を持つモデルは、他の最先端のアプローチと比較して、より高速にトレーニングし、より良い予測を提供することが示された。
論文 参考訳(メタデータ) (2021-02-08T18:54:15Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。