論文の概要: MambaLoc: Efficient Camera Localisation via State Space Model
- arxiv url: http://arxiv.org/abs/2408.09680v2
- Date: Tue, 20 Aug 2024 08:44:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 12:23:48.893198
- Title: MambaLoc: Efficient Camera Localisation via State Space Model
- Title(参考訳): MambaLoc: ステートスペースモデルによる効率的なカメラローカライゼーション
- Authors: Jialu Wang, Kaichen Zhou, Andrew Markham, Niki Trigoni,
- Abstract要約: 位置情報は、端末デバイスと自動運転車や拡張現実のようなエッジクラウドIoTシステムの自動化とインテリジェンスにとって重要なものだ。
さまざまなIoTアプリケーションにまたがる信頼性の高い位置決めを実現することは、トレーニングコストの大幅な増加と、密集したデータの必要性により、依然として困難である。
我々は,選択状態空間(SSM)モデルを視覚的ローカライゼーションに革新的に応用し,MambaLocという新しいモデルを導入した。
- 参考スコア(独自算出の注目度): 42.85368902409545
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Location information is pivotal for the automation and intelligence of terminal devices and edge-cloud IoT systems, such as autonomous vehicles and augmented reality. However, achieving reliable positioning across diverse IoT applications remains challenging due to significant training costs and the necessity of densely collected data. To tackle these issues, we have innovatively applied the selective state space (SSM) model to visual localization, introducing a new model named MambaLoc. The proposed model demonstrates exceptional training efficiency by capitalizing on the SSM model's strengths in efficient feature extraction, rapid computation, and memory optimization, and it further ensures robustness in sparse data environments due to its parameter sparsity. Additionally, we propose the Global Information Selector (GIS), which leverages selective SSM to implicitly achieve the efficient global feature extraction capabilities of Non-local Neural Networks. This design leverages the computational efficiency of the SSM model alongside the Non-local Neural Networks' capacity to capture long-range dependencies with minimal layers. Consequently, the GIS enables effective global information capture while significantly accelerating convergence. Our extensive experimental validation using public indoor and outdoor datasets first demonstrates our model's effectiveness, followed by evidence of its versatility with various existing localization models. Our code and models are publicly available to support further research and development in this area.
- Abstract(参考訳): 位置情報は、端末デバイスと自動運転車や拡張現実のようなエッジクラウドIoTシステムの自動化とインテリジェンスにとって重要なものだ。
しかし、トレーニングコストと密集したデータの必要性のため、多様なIoTアプリケーション間で信頼性の高い位置決めを実現することは依然として困難である。
これらの問題に対処するため,我々は選択状態空間(SSM)モデルを視覚的ローカライゼーションに適用し,MambaLocという新しいモデルを導入した。
提案モデルでは, 特徴抽出, 高速計算, メモリ最適化におけるSSMモデルの強みを活かし, パラメータの疎さによる疎データ環境の堅牢性を確保することにより, 例外的な訓練効率を示す。
さらに、選択SSMを利用して非局所ニューラルネットワークの効率的なグローバル特徴抽出能力を暗黙的に実現するGlobal Information Selector (GIS)を提案する。
この設計は、SSMモデルの計算効率と非局所ニューラルネットワークのキャパシティを併用して、最小層で長距離依存関係をキャプチャする。
これにより、GISは、収束を著しく加速しつつ、効果的なグローバル情報取得を可能にする。
公共の屋内および屋外のデータセットを用いた大規模な実験的検証は、まずモデルの有効性を実証し、続いて既存の様々なローカライゼーションモデルによるその汎用性を示す。
私たちのコードとモデルは、この分野のさらなる研究と開発を支援するために公開されています。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Dual-Model Distillation for Efficient Action Classification with Hybrid Edge-Cloud Solution [1.8029479474051309]
我々は、より大規模で正確なクラウドベースモデルに必要に応じて遅延しながら、より小さなモデルのローカル処理効率を活用するハイブリッドエッジクラウドソリューションを設計する。
具体的には、エッジモデルの出力が不確かである場合に予測可能な軽量スイッチャーモデルをトレーニングするための、新しい教師なしデータ生成手法であるDual-Model Distillation(DMD)を提案する。
動作分類タスクの実験結果から,我々のフレームワークは計算オーバーヘッドを少なくするだけでなく,大規模モデルのみを使用する場合と比較して精度も向上することが示された。
論文 参考訳(メタデータ) (2024-10-16T02:06:27Z) - Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。
機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。
実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文 参考訳(メタデータ) (2024-08-30T14:15:48Z) - Self-Supervised Learning for User Localization [8.529237718266042]
機械学習技術は、ローカライゼーションタスクにおいて顕著な精度を示している。
大量のラベル付きデータ、特にChannel State Information(CSI)およびそれに対応する座標への依存は、依然としてボトルネックである。
CSIに基づくユーザローカライゼーションのための教師付き学習性能を高めるために,ラベルなしデータによる自己教師付き事前学習を活用する先駆的手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T21:49:10Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - A Generative Self-Supervised Framework using Functional Connectivity in
fMRI Data [15.211387244155725]
機能的磁気共鳴イメージング(fMRI)データから抽出した機能的接続性(FC)ネットワークを訓練したディープニューラルネットワークが人気を博している。
グラフニューラルネットワーク(GNN)のFCへの適用に関する最近の研究は、FCの時間変化特性を活用することにより、モデル予測の精度と解釈可能性を大幅に向上させることができることを示唆している。
高品質なfMRIデータとそれに対応するラベルを取得するための高コストは、実環境において彼らのアプリケーションにハードルをもたらす。
本研究では,動的FC内の時間情報を効果的に活用するためのSSL生成手法を提案する。
論文 参考訳(メタデータ) (2023-12-04T16:14:43Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Fine-tuning Global Model via Data-Free Knowledge Distillation for
Non-IID Federated Learning [86.59588262014456]
フェデレートラーニング(Federated Learning, FL)は、プライバシ制約下での分散学習パラダイムである。
サーバ内のグローバルモデル(FedFTG)を微調整するデータフリー知識蒸留法を提案する。
私たちのFedFTGは最先端(SOTA)のFLアルゴリズムよりも優れており、FedAvg、FedProx、FedDyn、SCAFFOLDの強化のための強力なプラグインとして機能します。
論文 参考訳(メタデータ) (2022-03-17T11:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。