論文の概要: Can SSD-Mamba2 Unlock Reinforcement Learning for End-to-End Motion Control?
- arxiv url: http://arxiv.org/abs/2509.07593v1
- Date: Tue, 09 Sep 2025 11:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.276135
- Title: Can SSD-Mamba2 Unlock Reinforcement Learning for End-to-End Motion Control?
- Title(参考訳): SSD-Mamba2 アンロック強化学習はエンド・ツー・エンド動作制御に有効か?
- Authors: Gavin Tao, Yinuo Wang, Jinzhao Zhou,
- Abstract要約: 本稿では、SSD-Mamba2上に構築された視覚駆動型クロスモーダルフレームワークについて述べる。
原始受容状態と外受容観測はコンパクトトークンに符号化され、積み重ねられたSSD-Mamba2層で融合される。
当社のアプローチは、リターン、安全性、サンプル効率において、最先端の強力なベースラインを一貫して超越しています。
- 参考スコア(独自算出の注目度): 2.211616153144189
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: End-to-end reinforcement learning for motion control promises unified perception-action policies that scale across embodiments and tasks, yet most deployed controllers are either blind (proprioception-only) or rely on fusion backbones with unfavorable compute-memory trade-offs. Recurrent controllers struggle with long-horizon credit assignment, and Transformer-based fusion incurs quadratic cost in token length, limiting temporal and spatial context. We present a vision-driven cross-modal RL framework built on SSD-Mamba2, a selective state-space backbone that applies state-space duality (SSD) to enable both recurrent and convolutional scanning with hardware-aware streaming and near-linear scaling. Proprioceptive states and exteroceptive observations (e.g., depth tokens) are encoded into compact tokens and fused by stacked SSD-Mamba2 layers. The selective state-space updates retain long-range dependencies with markedly lower latency and memory use than quadratic self-attention, enabling longer look-ahead, higher token resolution, and stable training under limited compute. Policies are trained end-to-end under curricula that randomize terrain and appearance and progressively increase scene complexity. A compact, state-centric reward balances task progress, energy efficiency, and safety. Across diverse motion-control scenarios, our approach consistently surpasses strong state-of-the-art baselines in return, safety (collisions and falls), and sample efficiency, while converging faster at the same compute budget. These results suggest that SSD-Mamba2 provides a practical fusion backbone for scalable, foresightful, and efficient end-to-end motion control.
- Abstract(参考訳): モーションコントロールのためのエンドツーエンド強化学習は、実施状況やタスクにまたがってスケールする統一的な認識アクションポリシーを約束するが、ほとんどのデプロイされたコントローラは盲目(プロプライエセプションのみ)か、好ましくない計算メモリトレードオフを持つ融合バックボーンに依存している。
リカレントコントローラは長期のクレジット割り当てに苦労し、Transformerベースのフュージョンはトークン長の2次コストを発生させ、時間的および空間的コンテキストを制限する。
本稿では、SSD-Mamba2上に構築されたビジョン駆動型クロスモーダルRLフレームワークについて述べる。これは、ステートスペース双対性(SSD)を適用して、ハードウェア対応ストリーミングとニア線形スケーリングによる再帰走査と畳み込み走査の両方を可能にする選択的なステートスペースバックボーンである。
原始受容状態と外受容観測(例えば深度トークン)はコンパクトトークンに符号化され、積み重ねられたSSD-Mamba2層で融合される。
選択的な状態空間更新は、二次的な自己アテンションよりもレイテンシとメモリ使用が著しく低く、長いルックアヘッド、より高いトークン解決、限られた計算下での安定したトレーニングを可能にする。
政策は、地形や外観をランダムにし、シーンの複雑さを徐々に増大させるカリキュラムの下で、エンドツーエンドで訓練される。
コンパクトで状態中心の報酬は、タスクの進捗、エネルギー効率、安全性のバランスをとる。
さまざまなモーションコントロールシナリオにおいて、当社のアプローチは、リターン、安全性(衝突と落下)、サンプル効率を常に上回りながら、同じ計算予算でより高速に収束する。
これらの結果から,SSD-Mamba2は,拡張性,監視性,効率的なエンドツーエンド動作制御を実現するために,実用的な核融合バックボーンを提供することがわかった。
関連論文リスト
- Single Agent Robust Deep Reinforcement Learning for Bus Fleet Control [9.910562011343009]
バスの群れは交通と乗客の需要のために都市交通にとって困難である。
バス保持制御のための単エージェント強化学習フレームワークを提案する。
修正されたアクター・クリティは,ベンチマークよりも安定かつ優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2025-08-28T13:47:40Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - DriveTransformer: Unified Transformer for Scalable End-to-End Autonomous Driving [62.62464518137153]
DriveTransformerは、スケールアップを簡単にするためのシンプルなE2E-ADフレームワークである。
タスク・セルフ・アテンション、センサー・クロス・アテンション、時間的クロス・アテンションという3つの統合された操作で構成されている。
シミュレーションされたクローズドループベンチマークBench2Driveと、FPSの高い実世界のオープンループベンチマークnuScenesの両方で、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-07T11:41:18Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z) - An Efficient and Streaming Audio Visual Active Speaker Detection System [2.4515389321702132]
リアルタイム制約によって引き起こされる重要な課題に対処するシナリオを2つ提示する。
まず,ASDモデルを用いた将来のコンテキストフレーム数を制限する手法を提案する。
第二に、モデルが推論時にアクセス可能な過去のフレームの総数を制限する、より厳密な制約を提案する。
論文 参考訳(メタデータ) (2024-09-13T17:45:53Z) - VSSD: Vision Mamba with Non-Causal State Space Duality [26.96416515847115]
状態空間モデル(SSM)は、線形計算の複雑さを提供するため、視覚タスクにおいて注目されている。
本稿では,VSSDの非因果形式であるVisual State Space Duality(VSSD)モデルを紹介する。
我々は、VSSDが既存の最先端SSMモデルを上回る画像分類、検出、セグメンテーションを含む様々なベンチマークで広範な実験を行う。
論文 参考訳(メタデータ) (2024-07-26T07:16:52Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。