論文の概要: Decision Mamba: Reinforcement Learning via Sequence Modeling with Selective State Spaces
- arxiv url: http://arxiv.org/abs/2403.19925v1
- Date: Fri, 29 Mar 2024 02:25:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:44:26.678862
- Title: Decision Mamba: Reinforcement Learning via Sequence Modeling with Selective State Spaces
- Title(参考訳): 決定マンバ:選択状態空間を用いたシーケンスモデリングによる強化学習
- Authors: Toshihiro Ota,
- Abstract要約: マンバは効率的かつ効率的なシーケンスモデリングの高度な能力で知られている。
本稿では,効率的かつ効率的なシーケンスモデリングの高度な能力で知られるMambaフレームワークを,決定変換器アーキテクチャに統合することについて検討する。
- 参考スコア(独自算出の注目度): 0.32634122554914
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision Transformer, a promising approach that applies Transformer architectures to reinforcement learning, relies on causal self-attention to model sequences of states, actions, and rewards. While this method has shown competitive results, this paper investigates the integration of the Mamba framework, known for its advanced capabilities in efficient and effective sequence modeling, into the Decision Transformer architecture, focusing on the potential performance enhancements in sequential decision-making tasks. Our study systematically evaluates this integration by conducting a series of experiments across various decision-making environments, comparing the modified Decision Transformer, Decision Mamba, with its traditional counterpart. This work contributes to the advancement of sequential decision-making models, suggesting that the architecture and training methodology of neural networks can significantly impact their performance in complex tasks, and highlighting the potential of Mamba as a valuable tool for improving the efficacy of Transformer-based models in reinforcement learning scenarios.
- Abstract(参考訳): 決定トランスフォーマー(Decision Transformer)は、トランスフォーマーアーキテクチャを強化学習に適用する、有望なアプローチである。
提案手法は競争力のある結果を示したが,効率が高く効率的なシーケンスモデリングの高度な能力で知られるMambaフレームワークを決定変換器アーキテクチャに統合し,逐次決定タスクにおける性能向上の可能性に着目した。
本研究は,様々な意思決定環境における一連の実験を行うことにより,この統合を系統的に評価し,改良された決定変換器である決定マンバと従来の決定マンバとを比較した。
この研究は、シーケンシャルな意思決定モデルの進歩に寄与し、ニューラルネットワークのアーキテクチャとトレーニング方法論が複雑なタスクにおける彼らのパフォーマンスに大きな影響を与えることを示唆し、強化学習シナリオにおけるトランスフォーマーベースのモデルの有効性を改善するための貴重なツールとして、Mambaの可能性を強調した。
関連論文リスト
- A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。
これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。
本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文 参考訳(メタデータ) (2024-12-18T14:11:15Z) - DODT: Enhanced Online Decision Transformer Learning through Dreamer's Actor-Critic Trajectory Forecasting [37.334947053450996]
本稿では,Dreamerアルゴリズムの予測軌道生成能力とオンライン決定変換器の適応強度を組み合わせた新しい手法を提案する。
提案手法は,Dreamer-produced trajectories が変換器の文脈決定を促進させる並列学習を可能にする。
論文 参考訳(メタデータ) (2024-10-15T07:27:56Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Investigating the Role of Instruction Variety and Task Difficulty in Robotic Manipulation Tasks [50.75902473813379]
本研究は、そのようなモデルの一般化能力における命令と入力の役割を体系的に検証する包括的評価フレームワークを導入する。
提案フレームワークは,極度の命令摂動に対するマルチモーダルモデルのレジリエンスと,観測的変化に対する脆弱性を明らかにする。
論文 参考訳(メタデータ) (2024-07-04T14:36:49Z) - Decision Mamba Architectures [1.4255659581428335]
決定マンバアーキテクチャは、様々なタスク領域でトランスフォーマーより優れていることが示されている。
決定マンバ(DM)と階層決定マンバ(HDM)の2つの新しい手法を紹介する。
我々は,ほとんどのタスクにおいて,TransformerモデルよりもMambaモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-13T17:18:08Z) - Task adaption by biologically inspired stochastic comodulation [8.59194778459436]
我々は、利得変調による微調整畳み込みネットワークが、決定論的利得変調を改善することを示す。
この結果から,コモディレーション表現はマルチタスク学習における学習効率と性能を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-25T15:21:03Z) - Decision Stacks: Flexible Reinforcement Learning via Modular Generative
Models [37.79386205079626]
Decision Stacksは、ゴール条件付きポリシーエージェントを3つの生成モジュールに分解する生成フレームワークである。
これらのモジュールは、教師の強制によって並列に学習できる独立した生成モデルを通じて、観察、報酬、行動の時間的進化をシミュレートする。
我々のフレームワークは、アーキテクチャバイアス、最適化目標とダイナミクス、ドメイン間の転送可能性、推論速度といった重要な要素を考慮するために、個々のモジュールを設計する際の表現性と柔軟性の両方を保証します。
論文 参考訳(メタデータ) (2023-06-09T20:52:16Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - BayesFormer: Transformer with Uncertainty Estimation [31.206243748162553]
ベイズ理論によって設計されたドロップアウトを持つトランスフォーマーモデルBayesFormerを紹介する。
我々は,言語モデリングと分類,長文理解,機械翻訳,能動的学習のための獲得機能など,ボード全体の改良点を示す。
論文 参考訳(メタデータ) (2022-06-02T01:54:58Z) - Emergent Hand Morphology and Control from Optimizing Robust Grasps of
Diverse Objects [63.89096733478149]
多様な物体をつかむために、効果的なハンドデザインが自然に現れるデータ駆動型アプローチを紹介します。
形態と把持スキルを共同で効率的に設計するベイズ最適化アルゴリズムを開発した。
我々は,新しい物体をつかむための堅牢で費用効率のよい手形態を発見するためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-12-22T17:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。