論文の概要: STREAM: A Universal State-Space Model for Sparse Geometric Data
- arxiv url: http://arxiv.org/abs/2411.12603v1
- Date: Tue, 19 Nov 2024 16:06:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:38:37.555378
- Title: STREAM: A Universal State-Space Model for Sparse Geometric Data
- Title(参考訳): STREAM: 疎幾何データのための普遍的状態空間モデル
- Authors: Mark Schöne, Yash Bhisikar, Karan Bania, Khaleelulla Khan Nazeer, Christian Mayr, Anand Subramoney, David Kappel,
- Abstract要約: ポイントクラウドやイベントベースのビジョンなど、非構造化の幾何学的データを扱うことは、マシンビジョンの分野における急激な課題である。
状態空間モデルのパラメータ化に幾何構造を明示的にエンコードすることを提案する。
本モデルでは, スパースデータを最新のハードウェアに効率的にマッピングするために, カーネルを改良したMamba選択状態空間モデルをデプロイする。
- 参考スコア(独自算出の注目度): 2.9483719973596303
- License:
- Abstract: Handling sparse and unstructured geometric data, such as point clouds or event-based vision, is a pressing challenge in the field of machine vision. Recently, sequence models such as Transformers and state-space models entered the domain of geometric data. These methods require specialized preprocessing to create a sequential view of a set of points. Furthermore, prior works involving sequence models iterate geometric data with either uniform or learned step sizes, implicitly relying on the model to infer the underlying geometric structure. In this work, we propose to encode geometric structure explicitly into the parameterization of a state-space model. State-space models are based on linear dynamics governed by a one-dimensional variable such as time or a spatial coordinate. We exploit this dynamic variable to inject relative differences of coordinates into the step size of the state-space model. The resulting geometric operation computes interactions between all pairs of N points in O(N) steps. Our model deploys the Mamba selective state-space model with a modified CUDA kernel to efficiently map sparse geometric data to modern hardware. The resulting sequence model, which we call STREAM, achieves competitive results on a range of benchmarks from point-cloud classification to event-based vision and audio classification. STREAM demonstrates a powerful inductive bias for sparse geometric data by improving the PointMamba baseline when trained from scratch on the ModelNet40 and ScanObjectNN point cloud analysis datasets. It further achieves, for the first time, 100% test accuracy on all 11 classes of the DVS128 Gestures dataset.
- Abstract(参考訳): ポイントクラウドやイベントベースのビジョンのような、スパースで非構造化の幾何学的データを扱うことは、マシンビジョンの分野において、急激な課題である。
近年、トランスフォーマーや状態空間モデルといったシーケンスモデルが幾何学データの領域に入ってきた。
これらの方法は、一組の点のシーケンシャルなビューを作成するために、特別な前処理を必要とする。
さらに、シークエンスモデルを含む先行研究は、均一または学習されたステップサイズで幾何学データを反復し、基礎となる幾何学構造を推測するためにモデルに暗黙的に依存する。
本研究では,状態空間モデルのパラメータ化に幾何構造を明示的にエンコードすることを提案する。
状態空間モデルは時間や空間座標のような一次元変数によって支配される線形力学に基づいている。
我々はこの動的変数を利用して、状態空間モデルのステップサイズに座標の相対差を注入する。
結果として得られる幾何演算は、O(N) ステップにおけるすべての N 点間の相互作用を計算する。
提案モデルでは,修正CUDAカーネルを用いたMamba選択状態空間モデルをデプロイし,疎幾何データを現代的なハードウェアに効率的にマッピングする。
STREAMと呼ばれる結果のシーケンスモデルは、ポイントクラウドの分類からイベントベースの視覚とオーディオの分類に至るまで、様々なベンチマークで競合する結果が得られる。
STREAMは、ModelNet40とScanObjectNNのポイントクラウド分析データセットをスクラッチからトレーニングすると、PointMambaベースラインを改善することで、スパース幾何学データに対して強力な誘導バイアスを示す。
さらに、DVS128 Gesturesデータセットの11クラスすべてに対して、初めて100%のテスト精度を達成した。
関連論文リスト
- Segmenting objects with Bayesian fusion of active contour models and convnet priors [0.729597981661727]
本稿では,自然資源モニタリング(NRM)画像を対象とした新しい事例分割手法を提案する。
我々は、個々の物体の輪郭を学習する際に、形状、位置、位置の先行を組み込むベイズ最大値後部推論として問題を定式化する。
実験では、個々の枯木樹冠と正確な輪郭を分割する、挑戦的で現実的な問題に取り組む。
論文 参考訳(メタデータ) (2024-10-09T20:36:43Z) - PARSAC: Accelerating Robust Multi-Model Fitting with Parallel Sample
Consensus [26.366299016589256]
雑音データから幾何モデルの複数事例を頑健に推定するリアルタイム手法を提案する。
ニューラルネットワークは、入力データを潜在的モデルインスタンスを表すクラスタに分割する。
我々は、画像当たり5ミリ秒の推論時間を持つ複数の確立されたデータセットと同様に、これらに対して最先端のパフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-26T14:54:56Z) - Automatic Parameterization for Aerodynamic Shape Optimization via Deep
Geometric Learning [60.69217130006758]
空力形状最適化のための形状パラメータ化を完全に自動化する2つの深層学習モデルを提案する。
どちらのモデルも、深い幾何学的学習を通じてパラメータ化し、人間の事前知識を学習された幾何学的パターンに埋め込むように最適化されている。
2次元翼の形状最適化実験を行い、2つのモデルに適用可能なシナリオについて論じる。
論文 参考訳(メタデータ) (2023-05-03T13:45:40Z) - NeuroMorph: Unsupervised Shape Interpolation and Correspondence in One
Go [109.88509362837475]
入力2つの3次元形状を考慮したニューラルネットワークアーキテクチャであるNeuroMorphを提案する。
NeuroMorphはそれらの間のスムーズかつポイントツーポイント対応を生成する。
異なる対象カテゴリの非等尺性ペアを含む、さまざまな入力形状に対してうまく機能する。
論文 参考訳(メタデータ) (2021-06-17T12:25:44Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z) - Finding Geometric Models by Clustering in the Consensus Space [61.65661010039768]
本稿では,未知数の幾何学的モデル,例えばホモグラフィーを求めるアルゴリズムを提案する。
複数の幾何モデルを用いることで精度が向上するアプリケーションをいくつか提示する。
これには、複数の一般化されたホモグラフからのポーズ推定、高速移動物体の軌道推定が含まれる。
論文 参考訳(メタデータ) (2021-03-25T14:35:07Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z) - Mix Dimension in Poincar\'{e} Geometry for 3D Skeleton-based Action
Recognition [57.98278794950759]
グラフ畳み込みネットワーク(GCN)はすでに、不規則なデータをモデル化する強力な能力を実証している。
本稿では,ポアンカー幾何学を用いて定義した空間時空間GCNアーキテクチャを提案する。
提案手法を,現在最大規模の2つの3次元データセット上で評価する。
論文 参考訳(メタデータ) (2020-07-30T18:23:18Z) - LOCA: LOcal Conformal Autoencoder for standardized data coordinates [6.608924227377152]
多様体の潜在変数に等長な $mathbbRd$ の埋め込みを学ぶ方法を提案する。
我々の埋め込みは, 変形を補正する埋め込みを構成するアルゴリズムであるLOCA (Local Conformal Autoencoder) を用いて得られる。
また、単一サイトWi-FiのローカライゼーションデータにLOCAを適用し、曲面推定を3ドルで行う。
論文 参考訳(メタデータ) (2020-04-15T17:49:37Z) - PUGeo-Net: A Geometry-centric Network for 3D Point Cloud Upsampling [103.09504572409449]
PUGeo-Netと呼ばれる新しいディープニューラルネットワークを用いた一様高密度点雲を生成する手法を提案する。
その幾何学中心の性質のおかげで、PUGeo-Netはシャープな特徴を持つCADモデルとリッチな幾何学的詳細を持つスキャンされたモデルの両方でうまく機能する。
論文 参考訳(メタデータ) (2020-02-24T14:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。