論文の概要: Is Mamba Compatible with Trajectory Optimization in Offline Reinforcement Learning?
- arxiv url: http://arxiv.org/abs/2405.12094v2
- Date: Sun, 27 Oct 2024 04:46:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:13:30.162029
- Title: Is Mamba Compatible with Trajectory Optimization in Offline Reinforcement Learning?
- Title(参考訳): オフライン強化学習における軌道最適化とMambaは相容れないか?
- Authors: Yang Dai, Oubo Ma, Longfei Zhang, Xingxing Liang, Shengchao Hu, Mengzhu Wang, Shouling Ji, Jincai Huang, Li Shen,
- Abstract要約: 変圧器を用いた軌道最適化手法はオフライン強化学習(オフラインRL)において例外的な性能を示した。
しかし、パラメータのサイズがかなり大きく、スケーラビリティが制限されているため、特にシーケンシャルな意思決定シナリオでは問題が発生します。
有望な新しい線形時間シーケンスモデルであるMambaは、トランスフォーマーと同等のパフォーマンスを提供すると同時に、長いシーケンスのパラメータをかなり少なく提供する。
- 参考スコア(独自算出の注目度): 32.33214392196923
- License:
- Abstract: Transformer-based trajectory optimization methods have demonstrated exceptional performance in offline Reinforcement Learning (offline RL). Yet, it poses challenges due to substantial parameter size and limited scalability, which is particularly critical in sequential decision-making scenarios where resources are constrained such as in robots and drones with limited computational power. Mamba, a promising new linear-time sequence model, offers performance on par with transformers while delivering substantially fewer parameters on long sequences. As it remains unclear whether Mamba is compatible with trajectory optimization, this work aims to conduct comprehensive experiments to explore the potential of Decision Mamba (dubbed DeMa) in offline RL from the aspect of data structures and essential components with the following insights: (1) Long sequences impose a significant computational burden without contributing to performance improvements since DeMa's focus on sequences diminishes approximately exponentially. Consequently, we introduce a Transformer-like DeMa as opposed to an RNN-like DeMa. (2) For the components of DeMa, we identify the hidden attention mechanism as a critical factor in its success, which can also work well with other residual structures and does not require position embedding. Extensive evaluations demonstrate that our specially designed DeMa is compatible with trajectory optimization and surpasses previous methods, outperforming Decision Transformer (DT) with higher performance while using 30\% fewer parameters in Atari, and exceeding DT with only a quarter of the parameters in MuJoCo.
- Abstract(参考訳): トランスフォーマーに基づく軌道最適化手法はオフライン強化学習(オフラインRL)において例外的な性能を示した。
しかし、大きなパラメータサイズと限られたスケーラビリティのため、特に計算能力に制限のあるロボットやドローンのようなリソースが制約されるシーケンシャルな意思決定シナリオでは、特に問題となる。
有望な新しい線形時間シーケンスモデルであるMambaは、トランスフォーマーと同等のパフォーマンスを提供すると同時に、長いシーケンスのパラメータをかなり少なく提供する。
Mambaが軌道最適化と互換性があるかどうかは不明だが、本研究の目的は、データ構造や本質的なコンポーネントの観点から、オフラインRLにおけるDecision Mamba(Dubbed DeMa)の可能性を探るための包括的な実験を行うことである。
その結果,トランスフォーマーライクなDeMaを,RNNライクなDeMaとは対照的に導入した。
2)DeMaのコンポーネントでは,隠れた注意機構が成功の重要な要因であり,他の残留構造ともうまく機能し,位置埋め込みを必要としない。
拡張評価の結果,DeMaはトラジェクトリ最適化と互換性があり,従来の手法を上回り,Atariのパラメータを30倍減らし,MuJoCoのパラメータの4分の1しか満たないDTを上回り,高い性能でDecision Transformer(DT)を上回ります。
関連論文リスト
- Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Integrating Multi-Modal Input Token Mixer Into Mamba-Based Decision Models: Decision MetaMamba [0.0]
本研究では,これらの課題を解決するために,Decision MetaMambaというモデルを提案する。
入力トークンミキサーを使用して短いシーケンスからパターンを抽出し、ステートスペースモデル(SSM)を使用して比較的離れたシーケンスから情報を選択的に結合する。
これらのイノベーションに基づいて、DMMはオフラインのRLで様々なデータセット間で優れた性能を示した。
論文 参考訳(メタデータ) (2024-08-20T03:35:28Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning [16.23977055134524]
我々はMamba Decision Maker (MambaDM) という新しいアクション予測手法を提案する。
MambaDMは、マルチスケール依存関係の効率的なモデリングのため、シーケンスモデリングのパラダイムの有望な代替品として期待されている。
本稿では,RL領域におけるMambaDMのシーケンスモデリング機能について述べる。
論文 参考訳(メタデータ) (2024-06-04T06:49:18Z) - Decision Mamba: Reinforcement Learning via Hybrid Selective Sequence Modeling [13.253878928833688]
テキスト内強化学習のための決定マンバ・ヒブリッド(DM-H)を提案する。
DM-Hは、マンバモデルを介して長期記憶から高価値のサブゴールを生成する。
長期タスクにおけるDM-Hのオンラインテストは、トランスフォーマーベースのベースラインよりも28$times$speedである。
論文 参考訳(メタデータ) (2024-05-31T10:41:03Z) - Bitformer: An efficient Transformer with bitwise operation-based
attention for Big Data Analytics at low-cost low-precision devices [2.484958184370265]
本稿では,従来の浮動小数点行列乗算をビット演算に置き換える新しいアテンション機構であるBitformerモデルを提案する。
浮動小数点演算の典型的な$O(n2d)$複雑性から、ビット演算を特徴づける$O(n2T)$複雑性への移行は、この利点を裏付けるものである。
論文 参考訳(メタデータ) (2023-11-22T16:20:24Z) - Meta-Learning Adversarial Bandit Algorithms [55.72892209124227]
我々は,バンディットフィードバックを用いたオンラインメタラーニングについて研究する。
我々は自己協和障壁正規化器を用いてオンラインミラー降下一般化(OMD)をチューニングすることを学ぶ。
論文 参考訳(メタデータ) (2023-07-05T13:52:10Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Meta-Learning Adversarial Bandits [49.094361442409785]
本研究の目的は,複数のタスクにまたがる帯域幅フィードバックを用いてオンライン学習を学習し,タスク間の平均性能を改善することである。
敵対的設定を最初に対象とするメタアルゴリズムとして,マルチアーム・バンディット(MAB)とバンディット・最適化(BLO)の2つの重要なケースに対して,特定の保証を設定するメタアルゴリズムを設計する。
我々の保証は、非正規化されたフォローザリーダーと乗法重みを組み合わせることで、オンラインで非滑らかで非Bシーケンスを学ぶのに十分であることを示すことに依存しています。
論文 参考訳(メタデータ) (2022-05-27T17:40:32Z) - NxMTransformer: Semi-Structured Sparsification for Natural Language
Understanding via ADMM [16.464030458567187]
我々はNxMTransformerと呼ばれる新しい学習フレームワークを導入し、事前訓練された言語モデル上でNxM半構造化空間を誘導する。
我々は,制約付き最適化問題としてNxM空間を定式化し,下流タスクの最適化に Alternating Direction Method of Multipliers (ADMM) を用いることを提案する。
提案手法は,GLUEスコアの1.7ポイントの精度を現行の手法よりも高い精度で達成できる。
論文 参考訳(メタデータ) (2021-10-28T17:43:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。