論文の概要: Integrating Multi-Modal Input Token Mixer Into Mamba-Based Decision Models: Decision MetaMamba
- arxiv url: http://arxiv.org/abs/2408.10517v1
- Date: Tue, 20 Aug 2024 03:35:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:13:44.016984
- Title: Integrating Multi-Modal Input Token Mixer Into Mamba-Based Decision Models: Decision MetaMamba
- Title(参考訳): マルチモーダル入力トークンミキサーをマンバベース決定モデルに統合する:決定メタマンバ
- Authors: Wall Kim,
- Abstract要約: 本研究では,これらの課題を解決するために,Decision MetaMambaというモデルを提案する。
入力トークンミキサーを使用して短いシーケンスからパターンを抽出し、ステートスペースモデル(SSM)を使用して比較的離れたシーケンスから情報を選択的に結合する。
これらのイノベーションに基づいて、DMMはオフラインのRLで様々なデータセット間で優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Return-Conditioned Transformer Decision Models (RCTDM) have demonstrated the potential to enhance transformer performance in offline reinforcement learning by replacing rewards in the input sequence with returns-to-go. However, to achieve the goal of learning an optimal policy from offline datasets composed of limited suboptimal trajectories, RCTDM required alternative methods. One prominent approach, trajectory stitching, was designed to enable the network to combine multiple trajectories to find the optimal path. To implement this using only transformers without auxiliary networks, it was necessary to shorten the input sequence length to better capture the Markov property in reinforcement learnings. This, however, introduced a trade-off, as it reduced the accuracy of action inference. Our study introduces a model named Decision MetaMamba to resolve these challenges. DMM employs an input token mixer to extract patterns from short sequences and uses a State Space Model (SSM) to selectively combine information from relatively distant sequences. Inspired by Metaformer, this structure was developed by transforming Mamba's input layer into various multi-modal layers. Fortunately, with the advent of Mamba, implemented using parallel selective scanning, we achieved a high-performance sequence model capable of replacing transformers. Based on these innovations, DMM demonstrated excellent performance across various datasets in offline RL, confirming that models using SSM can improve performance by domain-specific alterations of the input layer. Additionally, it maintained its performance even in lightweight models with fewer parameters. These results suggest that decision models based on SSM can pave the way for improved outcomes in future developments.
- Abstract(参考訳): Return-Conditioned Transformer Decision Models (RCTDM) は、入力シーケンスの報酬をreturn-to-goに置き換えることで、オフライン強化学習におけるTransformerパフォーマンスを向上させる可能性を実証している。
しかし、限られた最適軌道からなるオフラインデータセットから最適なポリシーを学習する目的を達成するために、RTTDMは代替手法を必要とした。
1つの顕著なアプローチであるトラジェクトリーステッチは、ネットワークが複数のトラジェクトリを組み合わせて最適な経路を見つけることを可能にするように設計された。
補助的ネットワークを持たない変圧器のみを用いてこれを実装するには、強化学習においてマルコフ特性をよりよく捉えるために入力シーケンス長を短縮する必要がある。
しかし、これは行動推論の精度を低下させるためトレードオフをもたらした。
そこで本研究では,これらの課題を解決するために,Decision MetaMambaというモデルを紹介した。
DMMは入力トークンミキサーを用いて短いシーケンスからパターンを抽出し、ステートスペースモデル(SSM)を用いて比較的離れたシーケンスから情報を選択的に結合する。
Metaformerにインスパイアされたこの構造は、Mambaの入力層を様々なマルチモーダル層に変換することによって開発された。
幸いなことに、並列選択走査を用いて実装されたMambaの出現により、変換器を交換できる高性能なシーケンスモデルを実現した。
これらのイノベーションに基づいて、DMMはオフラインRLの様々なデータセットに対して優れた性能を示し、SSMを用いたモデルが入力層のドメイン固有の変更によって性能を向上させることを確認した。
さらに、パラメータが少ない軽量モデルでも性能を維持した。
これらの結果から,SSMに基づく意思決定モデルが今後の発展における成果の道を開くことが示唆された。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - DeciMamba: Exploring the Length Extrapolation Potential of Mamba [89.07242846058023]
本研究では,マンバに特化して設計された文脈拡張手法であるDeciMambaを紹介する。
DeciMambaは、トレーニング中に見たものよりも25倍長く、余分な計算資源を使わずに、コンテキスト長を外挿できることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:40:18Z) - Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning [16.23977055134524]
我々はMamba Decision Maker (MambaDM) という新しいアクション予測手法を提案する。
MambaDMは、マルチスケール依存関係の効率的なモデリングのため、シーケンスモデリングのパラダイムの有望な代替品として期待されている。
本稿では,RL領域におけるMambaDMのシーケンスモデリング機能について述べる。
論文 参考訳(メタデータ) (2024-06-04T06:49:18Z) - Mamba State-Space Models Are Lyapunov-Stable Learners [1.6385815610837167]
Mamba State-space Model (SSM) は、最近様々なタスクでTransformer Large Language Model (LLM) より優れていることが示されている。
我々は,Mambaのリカレントダイナミクスが小さな入力変化に対して堅牢であることを示す。
また、命令チューニングにより、Mambaモデルはこのギャップを81%に、Mamba-2モデルはこのギャップを132%に制限できることを示す。
論文 参考訳(メタデータ) (2024-05-31T21:46:23Z) - Decision Mamba: Reinforcement Learning via Hybrid Selective Sequence Modeling [13.253878928833688]
テキスト内強化学習のための決定マンバ・ヒブリッド(DM-H)を提案する。
DM-Hは、マンバモデルを介して長期記憶から高価値のサブゴールを生成する。
長期タスクにおけるDM-Hのオンラインテストは、トランスフォーマーベースのベースラインよりも28$times$speedである。
論文 参考訳(メタデータ) (2024-05-31T10:41:03Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Decision Mamba Architectures [1.4255659581428335]
決定マンバアーキテクチャは、様々なタスク領域でトランスフォーマーより優れていることが示されている。
決定マンバ(DM)と階層決定マンバ(HDM)の2つの新しい手法を紹介する。
我々は,ほとんどのタスクにおいて,TransformerモデルよりもMambaモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-13T17:18:08Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。