Fugu-MT 論文翻訳(概要): MambaLoc: Efficient Camera Localisation via State Space Model

論文の概要: MambaLoc: Efficient Camera Localisation via State Space Model

arxiv url: http://arxiv.org/abs/2408.09680v2
Date: Tue, 20 Aug 2024 08:44:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-21 12:23:48.893198
Title: MambaLoc: Efficient Camera Localisation via State Space Model
Title（参考訳）: MambaLoc: ステートスペースモデルによる効率的なカメラローカライゼーション
Authors: Jialu Wang, Kaichen Zhou, Andrew Markham, Niki Trigoni,
Abstract要約: 位置情報は、端末デバイスと自動運転車や拡張現実のようなエッジクラウドIoTシステムの自動化とインテリジェンスにとって重要なものだ。さまざまなIoTアプリケーションにまたがる信頼性の高い位置決めを実現することは、トレーニングコストの大幅な増加と、密集したデータの必要性により、依然として困難である。我々は,選択状態空間(SSM)モデルを視覚的ローカライゼーションに革新的に応用し,MambaLocという新しいモデルを導入した。
参考スコア（独自算出の注目度）: 42.85368902409545
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Location information is pivotal for the automation and intelligence of terminal devices and edge-cloud IoT systems, such as autonomous vehicles and augmented reality. However, achieving reliable positioning across diverse IoT applications remains challenging due to significant training costs and the necessity of densely collected data. To tackle these issues, we have innovatively applied the selective state space (SSM) model to visual localization, introducing a new model named MambaLoc. The proposed model demonstrates exceptional training efficiency by capitalizing on the SSM model's strengths in efficient feature extraction, rapid computation, and memory optimization, and it further ensures robustness in sparse data environments due to its parameter sparsity. Additionally, we propose the Global Information Selector (GIS), which leverages selective SSM to implicitly achieve the efficient global feature extraction capabilities of Non-local Neural Networks. This design leverages the computational efficiency of the SSM model alongside the Non-local Neural Networks' capacity to capture long-range dependencies with minimal layers. Consequently, the GIS enables effective global information capture while significantly accelerating convergence. Our extensive experimental validation using public indoor and outdoor datasets first demonstrates our model's effectiveness, followed by evidence of its versatility with various existing localization models. Our code and models are publicly available to support further research and development in this area.
Abstract（参考訳）: 位置情報は、端末デバイスと自動運転車や拡張現実のようなエッジクラウドIoTシステムの自動化とインテリジェンスにとって重要なものだ。しかし、トレーニングコストと密集したデータの必要性のため、多様なIoTアプリケーション間で信頼性の高い位置決めを実現することは依然として困難である。これらの問題に対処するため,我々は選択状態空間(SSM)モデルを視覚的ローカライゼーションに適用し,MambaLocという新しいモデルを導入した。提案モデルでは, 特徴抽出, 高速計算, メモリ最適化におけるSSMモデルの強みを活かし, パラメータの疎さによる疎データ環境の堅牢性を確保することにより, 例外的な訓練効率を示す。さらに、選択SSMを利用して非局所ニューラルネットワークの効率的なグローバル特徴抽出能力を暗黙的に実現するGlobal Information Selector (GIS)を提案する。この設計は、SSMモデルの計算効率と非局所ニューラルネットワークのキャパシティを併用して、最小層で長距離依存関係をキャプチャする。これにより、GISは、収束を著しく加速しつつ、効果的なグローバル情報取得を可能にする。公共の屋内および屋外のデータセットを用いた大規模な実験的検証は、まずモデルの有効性を実証し、続いて既存の様々なローカライゼーションモデルによるその汎用性を示す。私たちのコードとモデルは、この分野のさらなる研究と開発を支援するために公開されています。

関連論文リスト

Wireless Traffic Prediction with Large Language Model [54.07581399989292]
TIDESは、無線トラフィック予測のための空間時間相関をキャプチャする新しいフレームワークである。 TIDESは過剰なトレーニングオーバーヘッドを発生させることなく、ドメイン固有のパターンへの効率的な適応を実現する。この結果から,将来の6Gシステムにおいて,空間認識をLCMベースの予測器に統合することが,スケーラブルでインテリジェントなネットワーク管理の鍵であることが示唆された。
論文参考訳（メタデータ） (2025-12-19T04:47:40Z)
Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。 Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文参考訳（メタデータ） (2025-10-27T03:52:45Z)
Scaling Intelligence: Designing Data Centers for Next-Gen Language Models [0.13332839594069593]
大規模言語モデル(LLM)は、スケーラビリティ、効率性、コスト効率性を保証するために、データセンターアーキテクチャを根本的に再考する必要がある。我々の研究は、FLOPS、帯域幅とキャパシティ、複数のネットワークトポロジ、一般的な並列化/最適化戦略を共同で探求する包括的な協調設計フレームワークを提供する。私たちの発見は、実用的な洞察と、AIデータセンタを設計するための実践的なロードマップを提供します。
論文参考訳（メタデータ） (2025-06-17T22:29:37Z)
High-Fidelity Scientific Simulation Surrogates via Adaptive Implicit Neural Representations [51.90920900332569]
入射神経表現(INR)は空間的に構造化されたデータをモデリングするためのコンパクトで連続的なフレームワークを提供する。近年のアプローチでは、剛性幾何学的構造に沿った付加的な特徴を導入することでこの問題に対処している。機能適応型INR(FA-INR)を提案する。
論文参考訳（メタデータ） (2025-06-07T16:45:17Z)
World Model-Based Learning for Long-Term Age of Information Minimization in Vehicular Networks [53.98633183204453]
本稿では,車載ネットワークにおけるパケット完全性認識情報(CAoI)の年齢を最小化するために,新しい世界モデルに基づく学習フレームワークを提案する。 mmWave V2X環境の動的モデルを共同で学習し、リンクスケジューリングの方法を学ぶための軌跡を想像するために使用する世界モデルフレームワークを提案する。特に、長期的な政策は環境相互作用の代わりに、異なる想像軌道で学習される。
論文参考訳（メタデータ） (2025-05-03T06:23:18Z)
Federated Dynamic Modeling and Learning for Spatiotemporal Data Forecasting [0.8568432695376288]
本稿では、複雑な時間的データを予測するための高度なフェデレートラーニング(FL)フレームワークを提案し、最近の最先端モデルを改善した。結果として生じるアーキテクチャは、様々な予測アプリケーションで複雑な時間パターンを扱う能力を大幅に改善します。提案手法の有効性は,都市部におけるマルチモーダル交通需要予測のためのパブリックデータセットや,Origin-Destination (OD) 行列予測のためのプライベートデータセットなど,実世界の応用に関する広範な実験を通じて実証される。
論文参考訳（メタデータ） (2025-03-06T15:16:57Z)
Meta-Learning for Physically-Constrained Neural System Identification [9.417562391585076]
ブラックボックスシステム識別のためのニューラルネットワークモデル(NSSM)の高速適応のための勾配に基づくメタラーニングフレームワークを提案する。メタ学習モデルでは,室内の局所化とエネルギーシステムにおけるモデルベース状態推定において,ダウンストリーム性能が向上することを示す。
論文参考訳（メタデータ） (2025-01-10T18:46:28Z)
Hyperspectral Images Efficient Spatial and Spectral non-Linear Model with Bidirectional Feature Learning [7.06787067270941]
本稿では,分類精度を高めつつ,データ量を大幅に削減する新しいフレームワークを提案する。本モデルでは,空間特徴解析のための特殊ブロックによって補完されるスペクトル特徴を効率よく抽出するために,双方向逆畳み込みニューラルネットワーク(CNN)を用いる。
論文参考訳（メタデータ） (2024-11-29T23:32:26Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
Dual-Model Distillation for Efficient Action Classification with Hybrid Edge-Cloud Solution [1.8029479474051309]
我々は、より大規模で正確なクラウドベースモデルに必要に応じて遅延しながら、より小さなモデルのローカル処理効率を活用するハイブリッドエッジクラウドソリューションを設計する。具体的には、エッジモデルの出力が不確かである場合に予測可能な軽量スイッチャーモデルをトレーニングするための、新しい教師なしデータ生成手法であるDual-Model Distillation(DMD)を提案する。動作分類タスクの実験結果から,我々のフレームワークは計算オーバーヘッドを少なくするだけでなく,大規模モデルのみを使用する場合と比較して精度も向上することが示された。
論文参考訳（メタデータ） (2024-10-16T02:06:27Z)
Efficient High-Resolution Visual Representation Learning with State Space Model for Human Pose Estimation [60.80423207808076]
高解像度の視覚表現を維持しながら長距離依存関係をキャプチャすることは、人間のポーズ推定のような密集した予測タスクに不可欠である。マルチスケールの畳み込み操作で視覚状態空間モデルを拡張する動的ビジュアル状態空間(DVSS)ブロックを提案する。 HRVMambaは効率的な高分解能表現学習のための新しいモデルである。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文参考訳（メタデータ） (2024-10-04T05:48:02Z)
Structuring a Training Strategy to Robustify Perception Models with Realistic Image Augmentations [1.5723316845301678]
本報告では, モデルロバスト性, 性能を向上させるため, 強化したトレーニング手法を提案する。機械学習モデルの弱点を特定し、適切な拡張を選択し、効果的なトレーニング戦略を考案する包括的フレームワークを提案する。実験結果は,オープンソースオブジェクトの検出とセマンティックセグメンテーションモデルとデータセットに対する平均平均精度(mAP)や平均距離(mIoU)といった一般的な測定値によって測定されるモデル性能の改善を示す。
論文参考訳（メタデータ） (2024-08-30T14:15:48Z)
Self-Supervised Learning for User Localization [8.529237718266042]
機械学習技術は、ローカライゼーションタスクにおいて顕著な精度を示している。大量のラベル付きデータ、特にChannel State Information(CSI)およびそれに対応する座標への依存は、依然としてボトルネックである。 CSIに基づくユーザローカライゼーションのための教師付き学習性能を高めるために,ラベルなしデータによる自己教師付き事前学習を活用する先駆的手法を提案する。
論文参考訳（メタデータ） (2024-04-19T21:49:10Z)
Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。 LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文参考訳（メタデータ） (2024-01-11T08:40:35Z)
Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-12-22T02:12:08Z)
A Generative Self-Supervised Framework using Functional Connectivity in fMRI Data [15.211387244155725]
機能的磁気共鳴イメージング(fMRI)データから抽出した機能的接続性(FC)ネットワークを訓練したディープニューラルネットワークが人気を博している。グラフニューラルネットワーク(GNN)のFCへの適用に関する最近の研究は、FCの時間変化特性を活用することにより、モデル予測の精度と解釈可能性を大幅に向上させることができることを示唆している。高品質なfMRIデータとそれに対応するラベルを取得するための高コストは、実環境において彼らのアプリケーションにハードルをもたらす。本研究では,動的FC内の時間情報を効果的に活用するためのSSL生成手法を提案する。
論文参考訳（メタデータ） (2023-12-04T16:14:43Z)
Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文参考訳（メタデータ） (2023-12-03T13:50:24Z)
Optimization Efficient Open-World Visual Region Recognition [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-11-02T16:31:49Z)
Fine-tuning Global Model via Data-Free Knowledge Distillation for Non-IID Federated Learning [86.59588262014456]
フェデレートラーニング(Federated Learning, FL)は、プライバシ制約下での分散学習パラダイムである。サーバ内のグローバルモデル(FedFTG)を微調整するデータフリー知識蒸留法を提案する。私たちのFedFTGは最先端(SOTA)のFLアルゴリズムよりも優れており、FedAvg、FedProx、FedDyn、SCAFFOLDの強化のための強力なプラグインとして機能します。
論文参考訳（メタデータ） (2022-03-17T11:18:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。