論文の概要: Is Mamba Compatible with Trajectory Optimization in Offline Reinforcement Learning?
- arxiv url: http://arxiv.org/abs/2405.12094v1
- Date: Mon, 20 May 2024 15:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 12:55:09.371751
- Title: Is Mamba Compatible with Trajectory Optimization in Offline Reinforcement Learning?
- Title(参考訳): オフライン強化学習における軌道最適化とMambaは相容れないか?
- Authors: Yang Dai, Oubo Ma, Longfei Zhang, Xingxing Liang, Shengchao Hu, Mengzhu Wang, Shouling Ji, Jincai Huang, Li Shen,
- Abstract要約: 変圧器を用いた軌道最適化手法はオフライン強化学習(オフラインRL)において例外的な性能を示した。
本研究は,オフラインRL(Dubbed DeMa)におけるDecision Mambaの可能性を探るため,総合的な実験を行うことを目的とする。
我々の特別設計したDeMaは軌道最適化と互換性があり、従来の最先端の手法を超越している。
- 参考スコア(独自算出の注目度): 32.33214392196923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based trajectory optimization methods have demonstrated exceptional performance in offline Reinforcement Learning (offline RL), yet it poses challenges due to substantial parameter size and limited scalability, which is particularly critical in sequential decision-making scenarios where resources are constrained such as in robots and drones with limited computational power. Mamba, a promising new linear-time sequence model, offers performance on par with transformers while delivering substantially fewer parameters on long sequences. As it remains unclear whether Mamba is compatible with trajectory optimization, this work aims to conduct comprehensive experiments to explore the potential of Decision Mamba in offline RL (dubbed DeMa) from the aspect of data structures and network architectures with the following insights: (1) Long sequences impose a significant computational burden without contributing to performance improvements due to the fact that DeMa's focus on sequences diminishes approximately exponentially. Consequently, we introduce a Transformer-like DeMa as opposed to an RNN-like DeMa. (2) For the components of DeMa, we identify that the hidden attention mechanism is key to its success, which can also work well with other residual structures and does not require position embedding. Extensive evaluations from eight Atari games demonstrate that our specially designed DeMa is compatible with trajectory optimization and surpasses previous state-of-the-art methods, outdoing Decision Transformer (DT) by 80\% with 30\% fewer parameters, and exceeds DT in MuJoCo with only a quarter of the parameters.
- Abstract(参考訳): トランスフォーマーベースの軌道最適化手法は、オフライン強化学習(オフラインRL)において例外的な性能を示したが、かなりのパラメータサイズと限られたスケーラビリティのため、特に計算能力に制限のあるロボットやドローンのようなリソースが制約されたシーケンシャルな意思決定シナリオにおいて、課題を生じさせている。
有望な新しい線形時間シーケンスモデルであるMambaは、トランスフォーマーと同等のパフォーマンスを提供すると同時に、長いシーケンスのパラメータをかなり少なく提供する。
Mambaが軌道最適化と互換性があるかどうかは不明だが、本研究の目的は、データ構造やネットワークアーキテクチャの観点からオフラインRL(Dubbed DeMa)におけるDecision Mambaの可能性を探るための包括的な実験を行うことである。
その結果,トランスフォーマーライクなDeMaを,RNNライクなDeMaとは対照的に導入した。
2)DeMaのコンポーネントでは,隠れ注意機構が成功の鍵であり,他の残留構造ともうまく動作し,位置埋め込みを必要としない。
8つのAtariゲームによる大規模な評価の結果,DeMaはトラジェクトリ最適化と互換性があり,従来の最先端手法を超越し,パラメータが30倍のDecision Transformer(DT)を80倍に上回り,パラメータの4分の1しか持たないMuJoCoではDTを上回っていることがわかった。
関連論文リスト
- On the locality bias and results in the Long Range Arena [49.15148871877941]
Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。
ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。
LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
論文 参考訳(メタデータ) (2025-01-24T15:34:50Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Integrating Multi-Modal Input Token Mixer Into Mamba-Based Decision Models: Decision MetaMamba [0.0]
状態空間モデル(SSM)を用いたシーケンスモデリングは、様々なタスクにおけるトランスフォーマーよりもパフォーマンスが優れていることを示した。
しかし、最先端のSSMであるMambaに基づく決定モデルは、拡張された決定変換器よりも優れた性能を達成できなかった。
本稿では,DMM(Decision MetaMamba)を提案する。
論文 参考訳(メタデータ) (2024-08-20T03:35:28Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Decision Mamba: Reinforcement Learning via Hybrid Selective Sequence Modeling [13.253878928833688]
テキスト内強化学習のための決定マンバ・ヒブリッド(DM-H)を提案する。
DM-Hは、マンバモデルを介して長期記憶から高価値のサブゴールを生成する。
長期タスクにおけるDM-Hのオンラインテストは、トランスフォーマーベースのベースラインよりも28$times$speedである。
論文 参考訳(メタデータ) (2024-05-31T10:41:03Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - NxMTransformer: Semi-Structured Sparsification for Natural Language
Understanding via ADMM [16.464030458567187]
我々はNxMTransformerと呼ばれる新しい学習フレームワークを導入し、事前訓練された言語モデル上でNxM半構造化空間を誘導する。
我々は,制約付き最適化問題としてNxM空間を定式化し,下流タスクの最適化に Alternating Direction Method of Multipliers (ADMM) を用いることを提案する。
提案手法は,GLUEスコアの1.7ポイントの精度を現行の手法よりも高い精度で達成できる。
論文 参考訳(メタデータ) (2021-10-28T17:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。