論文の概要: LocoMamba: Vision-Driven Locomotion via End-to-End Deep Reinforcement Learning with Mamba
- arxiv url: http://arxiv.org/abs/2508.11849v2
- Date: Thu, 28 Aug 2025 21:09:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-14 20:41:04.867806
- Title: LocoMamba: Vision-Driven Locomotion via End-to-End Deep Reinforcement Learning with Mamba
- Title(参考訳): LocoMamba: Mambaによるエンドツーエンドの深層強化学習によるビジョン駆動ロコモーション
- Authors: Yinuo Wang, Gavin Tao,
- Abstract要約: 選択状態空間モデル上に構築された視覚駆動型クロスモーダルDRLフレームワークについて,特にMambaを活用して紹介する。
LocoMambaは、ニアリニア時間シーケンスモデリングを実現し、効果的に長距離依存関係をキャプチャし、長いシーケンスで効率的なトレーニングを可能にする。
静的かつ動いた障害物や不均一な地形を有するシミュレーション環境において,本手法の評価を行った。
- 参考スコア(独自算出の注目度): 2.26464274357758
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We introduce LocoMamba, a vision-driven cross-modal DRL framework built on selective state-space models, specifically leveraging Mamba, that achieves near-linear-time sequence modeling, effectively captures long-range dependencies, and enables efficient training with longer sequences. First, we embed proprioceptive states with a multilayer perceptron and patchify depth images with a lightweight convolutional neural network, producing compact tokens that improve state representation. Second, stacked Mamba layers fuse these tokens via near-linear-time selective scanning, reducing latency and memory footprint, remaining robust to token length and image resolution, and providing an inductive bias that mitigates overfitting. Third, we train the policy end-to-end with Proximal Policy Optimization under terrain and appearance randomization and an obstacle-density curriculum, using a compact state-centric reward that balances progress, smoothness, and safety. We evaluate our method in challenging simulated environments with static and moving obstacles as well as uneven terrain. Compared with state-of-the-art baselines, our method achieves higher returns and success rates with fewer collisions, exhibits stronger generalization to unseen terrains and obstacle densities, and improves training efficiency by converging in fewer updates under the same compute budget.
- Abstract(参考訳): 選択状態空間モデル上に構築された視覚駆動型クロスモーダルDRLフレームワークであるLocoMambaを紹介する。
まず、多層パーセプトロンに受容状態を埋め込み、より軽量な畳み込みニューラルネットワークで奥行き画像にパッチを当て、状態表現を改善するためのコンパクトなトークンを生成する。
第二に、積み重ねられたMambaレイヤは、これらのトークンを、ほぼ線形の選択的スキャン、レイテンシとメモリフットプリントの削減、トークン長と画像解像度の堅牢性維持、過度な適合を緩和する帰納的バイアスによって融合する。
第3に,地形と外観のランダム化と障害物密度のカリキュラムの下で,進行性,滑らか性,安全性のバランスをとるコンパクトな状態中心報酬を用いて,政策をエンドツーエンドに訓練する。
静的かつ動いた障害物や不均一な地形を有するシミュレーション環境において,本手法の評価を行った。
現状のベースラインと比較すると,衝突を少なくして高いリターンと成功率を達成し,未確認の地形や障害物密度への強い一般化を示し,同じ計算予算の下でより少ない更新を収束させることで,トレーニング効率を向上させる。
関連論文リスト
- Can SSD-Mamba2 Unlock Reinforcement Learning for End-to-End Motion Control? [2.211616153144189]
本稿では、SSD-Mamba2上に構築された視覚駆動型クロスモーダルフレームワークについて述べる。
原始受容状態と外受容観測はコンパクトトークンに符号化され、積み重ねられたSSD-Mamba2層で融合される。
当社のアプローチは、リターン、安全性、サンプル効率において、最先端の強力なベースラインを一貫して超越しています。
論文 参考訳(メタデータ) (2025-09-09T11:05:44Z) - MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。
離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。
また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-10-14T17:57:18Z) - DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity [0.5755004576310334]
我々は、革新的な教師なしイメージセグメンテーションアプローチであるDynaSegを紹介する。
従来の方法とは異なり、DynaSegは画像の特徴に柔軟に対応する動的重み付け方式を採用している。
DynaSegは、予測されたクラスタ数が1つに収束する可能性のある、過小評価の失敗を防ぐ。
論文 参考訳(メタデータ) (2024-05-09T00:30:45Z) - Taming Contrast Maximization for Learning Sequential, Low-latency,
Event-based Optical Flow [18.335337530059867]
イベントカメラは、複雑なコンピュータビジョン問題に対する低レイテンシで低消費電力のソリューションのための新しい道を開くことで、大きな注目を集めている。
これらのソリューションをアンロックするには、イベントデータのユニークな性質を活用するアルゴリズムを開発する必要がある。
本研究では,イベントベース光フロー推定のための自己教師付き学習パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-09T12:37:33Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - Self-Supervised Multi-Frame Monocular Scene Flow [61.588808225321735]
自己監督学習に基づくマルチフレーム一眼的シーンフローネットワークを導入。
自己監督学習に基づく単眼的シーンフロー法における最新の精度を観察する。
論文 参考訳(メタデータ) (2021-05-05T17:49:55Z) - Stylized Adversarial Defense [105.88250594033053]
逆行訓練は摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含む。
我々は、より強力な敵を作るために、機能空間から追加情報を活用することを提案する。
我々の対人訓練アプローチは、最先端の防御と比べて強い堅牢性を示している。
論文 参考訳(メタデータ) (2020-07-29T08:38:10Z) - Perturbing Across the Feature Hierarchy to Improve Standard and Strict
Blackbox Attack Transferability [100.91186458516941]
我々は、ディープニューラルネットワーク(DNN)画像分類器の領域におけるブラックボックス転送に基づく敵攻撃脅威モデルを検討する。
我々は,多層摂動が可能なフレキシブルアタックフレームワークを設計し,最先端のターゲット転送性能を示す。
提案手法が既存の攻撃戦略より優れている理由を解析し,ブラックボックスモデルに対する限られたクエリが許された場合に,メソッドの拡張を示す。
論文 参考訳(メタデータ) (2020-04-29T16:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。