論文の概要: Decision Mamba: Reinforcement Learning via Sequence Modeling with Selective State Spaces
- arxiv url: http://arxiv.org/abs/2403.19925v1
- Date: Fri, 29 Mar 2024 02:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:44:26.678862
- Title: Decision Mamba: Reinforcement Learning via Sequence Modeling with Selective State Spaces
- Title(参考訳): 決定マンバ:選択状態空間を用いたシーケンスモデリングによる強化学習
- Authors: Toshihiro Ota,
- Abstract要約: マンバは効率的かつ効率的なシーケンスモデリングの高度な能力で知られている。
本稿では,効率的かつ効率的なシーケンスモデリングの高度な能力で知られるMambaフレームワークを,決定変換器アーキテクチャに統合することについて検討する。
- 参考スコア(独自算出の注目度): 0.32634122554914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision Transformer, a promising approach that applies Transformer architectures to reinforcement learning, relies on causal self-attention to model sequences of states, actions, and rewards. While this method has shown competitive results, this paper investigates the integration of the Mamba framework, known for its advanced capabilities in efficient and effective sequence modeling, into the Decision Transformer architecture, focusing on the potential performance enhancements in sequential decision-making tasks. Our study systematically evaluates this integration by conducting a series of experiments across various decision-making environments, comparing the modified Decision Transformer, Decision Mamba, with its traditional counterpart. This work contributes to the advancement of sequential decision-making models, suggesting that the architecture and training methodology of neural networks can significantly impact their performance in complex tasks, and highlighting the potential of Mamba as a valuable tool for improving the efficacy of Transformer-based models in reinforcement learning scenarios.
- Abstract(参考訳): 決定トランスフォーマー(Decision Transformer)は、トランスフォーマーアーキテクチャを強化学習に適用する、有望なアプローチである。
提案手法は競争力のある結果を示したが,効率が高く効率的なシーケンスモデリングの高度な能力で知られるMambaフレームワークを決定変換器アーキテクチャに統合し,逐次決定タスクにおける性能向上の可能性に着目した。
本研究は,様々な意思決定環境における一連の実験を行うことにより,この統合を系統的に評価し,改良された決定変換器である決定マンバと従来の決定マンバとを比較した。
この研究は、シーケンシャルな意思決定モデルの進歩に寄与し、ニューラルネットワークのアーキテクチャとトレーニング方法論が複雑なタスクにおける彼らのパフォーマンスに大きな影響を与えることを示唆し、強化学習シナリオにおけるトランスフォーマーベースのモデルの有効性を改善するための貴重なツールとして、Mambaの可能性を強調した。
関連論文リスト
- Affine transformation estimation improves visual self-supervised
learning [4.40560654491339]
本研究では,アフィン変換の予測表現を制約するモジュールを追加することにより,学習プロセスの性能と効率が向上することを示す。
我々は、様々な近代的な自己監督モデルで実験を行い、全てのケースで性能改善を見る。
論文 参考訳(メタデータ) (2024-02-14T10:32:58Z) - Task adaption by biologically inspired stochastic comodulation [8.59194778459436]
我々は、利得変調による微調整畳み込みネットワークが、決定論的利得変調を改善することを示す。
この結果から,コモディレーション表現はマルチタスク学習における学習効率と性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-25T15:21:03Z) - Decision Stacks: Flexible Reinforcement Learning via Modular Generative
Models [37.79386205079626]
Decision Stacksは、ゴール条件付きポリシーエージェントを3つの生成モジュールに分解する生成フレームワークである。
これらのモジュールは、教師の強制によって並列に学習できる独立した生成モデルを通じて、観察、報酬、行動の時間的進化をシミュレートする。
我々のフレームワークは、アーキテクチャバイアス、最適化目標とダイナミクス、ドメイン間の転送可能性、推論速度といった重要な要素を考慮するために、個々のモジュールを設計する際の表現性と柔軟性の両方を保証します。
論文 参考訳(メタデータ) (2023-06-09T20:52:16Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Adaptive Ensemble Learning: Boosting Model Performance through
Intelligent Feature Fusion in Deep Neural Networks [0.0]
本稿では,ディープラーニングの性能向上を目的としたAdaptive Ensemble Learningフレームワークを提案する。
このフレームワークは、より堅牢で適応可能なモデルを作成するために、アンサンブル学習戦略とディープラーニングアーキテクチャを統合する。
インテリジェントな特徴融合手法を利用することで、フレームワークはより差別的で効果的な特徴表現を生成する。
論文 参考訳(メタデータ) (2023-04-04T21:49:49Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Slimmable Domain Adaptation [112.19652651687402]
重み付けモデルバンクを用いて、ドメイン間の一般化を改善するためのシンプルなフレームワーク、Slimmable Domain Adaptationを導入する。
私たちのフレームワークは、他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-06-14T06:28:04Z) - BayesFormer: Transformer with Uncertainty Estimation [31.206243748162553]
ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。
我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
論文 参考訳(メタデータ) (2022-06-02T01:54:58Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - Emergent Hand Morphology and Control from Optimizing Robust Grasps of
Diverse Objects [63.89096733478149]
多様な物体をつかむために、効果的なハンドデザインが自然に現れるデータ駆動型アプローチを紹介します。
形態と把持スキルを共同で効率的に設計するベイズ最適化アルゴリズムを開発した。
我々は,新しい物体をつかむための堅牢で費用効率のよい手形態を発見するためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-12-22T17:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。