論文の概要: MambaLoc: Efficient Camera Localisation via State Space Model
- arxiv url: http://arxiv.org/abs/2408.09680v2
- Date: Tue, 20 Aug 2024 08:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 12:23:48.893198
- Title: MambaLoc: Efficient Camera Localisation via State Space Model
- Title(参考訳): MambaLoc: ステートスペースモデルによる効率的なカメラローカライゼーション
- Authors: Jialu Wang, Kaichen Zhou, Andrew Markham, Niki Trigoni,
- Abstract要約: 位置情報は、端末デバイスと自動運転車や拡張現実のようなエッジクラウドIoTシステムの自動化とインテリジェンスにとって重要なものだ。
さまざまなIoTアプリケーションにまたがる信頼性の高い位置決めを実現することは、トレーニングコストの大幅な増加と、密集したデータの必要性により、依然として困難である。
我々は,選択状態空間(SSM)モデルを視覚的ローカライゼーションに革新的に応用し,MambaLocという新しいモデルを導入した。
- 参考スコア(独自算出の注目度): 42.85368902409545
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Location information is pivotal for the automation and intelligence of terminal devices and edge-cloud IoT systems, such as autonomous vehicles and augmented reality. However, achieving reliable positioning across diverse IoT applications remains challenging due to significant training costs and the necessity of densely collected data. To tackle these issues, we have innovatively applied the selective state space (SSM) model to visual localization, introducing a new model named MambaLoc. The proposed model demonstrates exceptional training efficiency by capitalizing on the SSM model's strengths in efficient feature extraction, rapid computation, and memory optimization, and it further ensures robustness in sparse data environments due to its parameter sparsity. Additionally, we propose the Global Information Selector (GIS), which leverages selective SSM to implicitly achieve the efficient global feature extraction capabilities of Non-local Neural Networks. This design leverages the computational efficiency of the SSM model alongside the Non-local Neural Networks' capacity to capture long-range dependencies with minimal layers. Consequently, the GIS enables effective global information capture while significantly accelerating convergence. Our extensive experimental validation using public indoor and outdoor datasets first demonstrates our model's effectiveness, followed by evidence of its versatility with various existing localization models. Our code and models are publicly available to support further research and development in this area.
- Abstract(参考訳): 位置情報は、端末デバイスと自動運転車や拡張現実のようなエッジクラウドIoTシステムの自動化とインテリジェンスにとって重要なものだ。
しかし、トレーニングコストと密集したデータの必要性のため、多様なIoTアプリケーション間で信頼性の高い位置決めを実現することは依然として困難である。
これらの問題に対処するため,我々は選択状態空間(SSM)モデルを視覚的ローカライゼーションに適用し,MambaLocという新しいモデルを導入した。
提案モデルでは, 特徴抽出, 高速計算, メモリ最適化におけるSSMモデルの強みを活かし, パラメータの疎さによる疎データ環境の堅牢性を確保することにより, 例外的な訓練効率を示す。
さらに、選択SSMを利用して非局所ニューラルネットワークの効率的なグローバル特徴抽出能力を暗黙的に実現するGlobal Information Selector (GIS)を提案する。
この設計は、SSMモデルの計算効率と非局所ニューラルネットワークのキャパシティを併用して、最小層で長距離依存関係をキャプチャする。
これにより、GISは、収束を著しく加速しつつ、効果的なグローバル情報取得を可能にする。
公共の屋内および屋外のデータセットを用いた大規模な実験的検証は、まずモデルの有効性を実証し、続いて既存の様々なローカライゼーションモデルによるその汎用性を示す。
私たちのコードとモデルは、この分野のさらなる研究と開発を支援するために公開されています。
関連論文リスト
- Meta-Learning for Physically-Constrained Neural System Identification [9.417562391585076]
ブラックボックスシステム識別のためのニューラルネットワークモデル(NSSM)の高速適応のための勾配に基づくメタラーニングフレームワークを提案する。
メタ学習モデルでは,室内の局所化とエネルギーシステムにおけるモデルベース状態推定において,ダウンストリーム性能が向上することを示す。
論文 参考訳(メタデータ) (2025-01-10T18:46:28Z) - Hyperspectral Images Efficient Spatial and Spectral non-Linear Model with Bidirectional Feature Learning [7.06787067270941]
本稿では,分類精度を高めつつ,データ量を大幅に削減する新しいフレームワークを提案する。
本モデルでは,空間特徴解析のための特殊ブロックによって補完されるスペクトル特徴を効率よく抽出するために,双方向逆畳み込みニューラルネットワーク(CNN)を用いる。
論文 参考訳(メタデータ) (2024-11-29T23:32:26Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文 参考訳(メタデータ) (2024-08-30T14:15:48Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - A Generative Self-Supervised Framework using Functional Connectivity in
fMRI Data [15.211387244155725]
機能的磁気共鳴イメージング(fMRI)データから抽出した機能的接続性(FC)ネットワークを訓練したディープニューラルネットワークが人気を博している。
グラフニューラルネットワーク(GNN)のFCへの適用に関する最近の研究は、FCの時間変化特性を活用することにより、モデル予測の精度と解釈可能性を大幅に向上させることができることを示唆している。
高品質なfMRIデータとそれに対応するラベルを取得するための高コストは、実環境において彼らのアプリケーションにハードルをもたらす。
本研究では,動的FC内の時間情報を効果的に活用するためのSSL生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T16:14:43Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Fine-tuning Global Model via Data-Free Knowledge Distillation for
Non-IID Federated Learning [86.59588262014456]
フェデレートラーニング(Federated Learning, FL)は、プライバシ制約下での分散学習パラダイムである。
サーバ内のグローバルモデル(FedFTG)を微調整するデータフリー知識蒸留法を提案する。
私たちのFedFTGは最先端(SOTA)のFLアルゴリズムよりも優れており、FedAvg、FedProx、FedDyn、SCAFFOLDの強化のための強力なプラグインとして機能します。
論文 参考訳(メタデータ) (2022-03-17T11:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。