論文の概要: RLBenchNet: The Right Network for the Right Reinforcement Learning Task
- arxiv url: http://arxiv.org/abs/2505.15040v1
- Date: Wed, 21 May 2025 02:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.826362
- Title: RLBenchNet: The Right Network for the Right Reinforcement Learning Task
- Title(参考訳): RLBenchNet: 正しい強化学習課題のための正しいネットワーク
- Authors: Ivan Smirnov, Shangding Gu,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、さまざまなニューラルネットワークアーキテクチャの適用を通じて、大幅な進歩を遂げている。
本稿では,LLタスクにおける複数のニューラルネットワークの性能について検討する。例えば,Long Short-Term Memory (LSTM), Multi-Layer Perceptron (MLP), Mamba/Mamba-2, Transformer-XL, Gated Transformer-XL, Gated Recurrent Unit (GRU)である。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has seen significant advancements through the application of various neural network architectures. In this study, we systematically investigate the performance of several neural networks in RL tasks, including Long Short-Term Memory (LSTM), Multi-Layer Perceptron (MLP), Mamba/Mamba-2, Transformer-XL, Gated Transformer-XL, and Gated Recurrent Unit (GRU). Through comprehensive evaluation across continuous control, discrete decision-making, and memory-based environments, we identify architecture-specific strengths and limitations. Our results reveal that: (1) MLPs excel in fully observable continuous control tasks, providing an optimal balance of performance and efficiency; (2) recurrent architectures like LSTM and GRU offer robust performance in partially observable environments with moderate memory requirements; (3) Mamba models achieve a 4.5x higher throughput compared to LSTM and a 3.9x increase over GRU, all while maintaining comparable performance; and (4) only Transformer-XL, Gated Transformer-XL, and Mamba-2 successfully solve the most challenging memory-intensive tasks, with Mamba-2 requiring 8x less memory than Transformer-XL. These findings provide insights for researchers and practitioners, enabling more informed architecture selection based on specific task characteristics and computational constraints. Code is available at: https://github.com/SafeRL-Lab/RLBenchNet
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、さまざまなニューラルネットワークアーキテクチャの適用を通じて、大幅な進歩を遂げている。
本研究では,LLタスクにおける複数のニューラルネットワークの性能について,Long Short-Term Memory (LSTM), Multi-Layer Perceptron (MLP), Mamba/Mamba-2, Transformer-XL, Gated Transformer-XL, Gated Recurrent Unit (GRU) など,体系的に検討した。
連続的な制御、離散的な意思決定、メモリベースの環境を包括的に評価することで、アーキテクチャ固有の強みと制限を特定します。
その結果, 1) MLP は完全観測可能な連続制御タスクに優れ,性能と効率のバランスが最適であること,(2) LSTM や GRU のような再並行アーキテクチャは,ある程度のメモリ要件を持つ部分観測可能な環境において堅牢な性能を提供すること,(3) Mamba モデルは LSTM よりも4.5倍高いスループットと GRU よりも3.9倍高いスループットを達成できること,(4) Transformer-XL, Gated Transformer-XL, Mamba-2 のみが,最も困難なメモリ集約タスクの解決に成功し,Mamba-2 は Transformer-XL より 8倍少ないメモリを必要とすること,などが判明した。
これらの知見は、特定のタスク特性と計算制約に基づいて、より情報的なアーキテクチャ選択を可能にする、研究者や実践者に洞察を与える。
コードは、https://github.com/SafeRL-Lab/RLBenchNetで入手できる。
関連論文リスト
- MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - SparX: A Sparse Cross-Layer Connection Mechanism for Hierarchical Vision Mamba and Transformer Networks [45.68176825375723]
本稿では,視覚バックボーンネットワークのための効率的な層間特徴集約機構を提案する。
ヒト視覚系における網膜ガングリオン細胞(RGC)にインスパイアされ、SparXと呼ばれる新しいスパース層間結合機構を提案する。
我々の新しい接続機構は、様々な視覚タスクにおいて優れた性能と一般化能力を持つ。
論文 参考訳(メタデータ) (2024-09-15T07:46:18Z) - Benchmarking Neural Decoding Backbones towards Enhanced On-edge iBCI Applications [28.482461973598593]
本研究は、エッジ展開に適した堅牢な性能と迅速な推論能力を有する最適な神経復号バックボーンを特定することを目的とする。
我々は、GRU(Gated Recurrent Unit)、Transformer、Receptance Weighted Key Value(RWKV)、Selective State Space Model(Mamba)の4つの予測モデルを評価した。
これらの結果から, GRUモデルでは十分な精度が得られたが, RWKVモデルとMambaモデルの方が推論速度とキャリブレーション速度が優れていることが示唆された。
論文 参考訳(メタデータ) (2024-06-08T02:45:36Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture
with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。
MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。
Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文 参考訳(メタデータ) (2023-05-30T02:24:03Z) - M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task
Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。
現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。
効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-26T15:40:24Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。