論文の概要: Scaling Algorithm Distillation for Continuous Control with Mamba
- arxiv url: http://arxiv.org/abs/2506.13892v1
- Date: Mon, 16 Jun 2025 18:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 17:34:59.197067
- Title: Scaling Algorithm Distillation for Continuous Control with Mamba
- Title(参考訳): マンバを用いた連続制御のためのスケーリングアルゴリズム蒸留
- Authors: Samuel Beaussant, Mehdi Mounsif,
- Abstract要約: In-Context Reinforcement Learning (ICRL) を実行する新しいアプローチとして,アルゴリズム蒸留(AD)が提案されている。
我々は,非常に長いコンテキストにADをスケールすることでICRLの性能が向上し,SOTAオンラインメタRLベースラインと競合することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Algorithm Distillation (AD) was recently proposed as a new approach to perform In-Context Reinforcement Learning (ICRL) by modeling across-episodic training histories autoregressively with a causal transformer model. However, due to practical limitations induced by the attention mechanism, experiments were bottlenecked by the transformer's quadratic complexity and limited to simple discrete environments with short time horizons. In this work, we propose leveraging the recently proposed Selective Structured State Space Sequence (S6) models, which achieved state-of-the-art (SOTA) performance on long-range sequence modeling while scaling linearly in sequence length. Through four complex and continuous Meta Reinforcement Learning environments, we demonstrate the overall superiority of Mamba, a model built with S6 layers, over a transformer model for AD. Additionally, we show that scaling AD to very long contexts can improve ICRL performance and make it competitive even with a SOTA online meta RL baseline.
- Abstract(参考訳): In-Context Reinforcement Learning (ICRL) の手法としてアルゴリズム蒸留(AD)が提案されている。
しかし、注意機構によって引き起こされる実用的な制限のため、トランスフォーマーの二次的な複雑さによって実験はボトルネックとなり、短時間の水平線を持つ単純な離散環境に制限された。
本研究では,最近提案されたS6(Selective Structured State Space Sequence)モデルを活用することを提案する。
4つの複雑で連続的なメタ強化学習環境を通じて、ADのトランスフォーマーモデルよりもS6層で構築されたモデルであるMambaの全体的な優位性を実証する。
さらに,非常に長いコンテキストにADをスケールすることでICRLの性能が向上し,SOTAオンラインメタRLベースラインと競合することを示す。
関連論文リスト
- Enhancing Online Continual Learning with Plug-and-Play State Space Model and Class-Conditional Mixture of Discretization [72.81319836138347]
オンライン連続学習(OCL)は、以前に学習したタスクの知識を保持しながら、一度だけ現れるデータストリームから新しいタスクを学習することを目指している。
既存の方法の多くはリプレイに依存しており、正規化や蒸留によるメモリ保持の強化に重点を置いている。
既存のほとんどのメソッドに組み込むことができ、適応性を直接改善できるプラグイン・アンド・プレイモジュールであるS6MODを導入する。
論文 参考訳(メタデータ) (2024-12-24T05:25:21Z) - A Large Recurrent Action Model: xLSTM enables Fast Inference for Robotics Tasks [25.961645453318873]
線形時間推論の複雑さと自然列長外挿能力を備えたxLSTMを用いたLRAM(Large Recurrent Action Model)を提案する。
6つのドメインから432のタスクを実験したところ、LRAMはパフォーマンスとスピードの点でTransformerと良好に比較できることがわかった。
論文 参考訳(メタデータ) (2024-10-29T17:55:47Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Structured State Space Models for In-Context Reinforcement Learning [30.189834820419446]
構造化状態空間列(S4)モデルは、最近、長距離シーケンスモデリングタスクにおいて最先端の性能を達成した。
隠れた状態を並列に初期化およびリセットできるS4の変種に対する修正を提案する。
変更したアーキテクチャはシーケンス長のTransformerよりも高速に動作し、単純なメモリベースのタスクでRNNよりもパフォーマンスがよいことを示す。
論文 参考訳(メタデータ) (2023-03-07T15:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。