論文の概要: QForce-RL: Quantized FPGA-Optimized Reinforcement Learning Compute Engine
- arxiv url: http://arxiv.org/abs/2506.07046v1
- Date: Sun, 08 Jun 2025 08:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.64933
- Title: QForce-RL: Quantized FPGA-Optimized Reinforcement Learning Compute Engine
- Title(参考訳): QForce-RL:quantized FPGA-Optimized Reinforcement Learning Compute Engine
- Authors: Anushka Jha, Tanushree Dewangan, Mukul Lokhande, Santosh Kumar Vishvakarma,
- Abstract要約: 本稿では,軽量RLアーキテクチャによるスループットの向上とエネルギーフットプリントの削減を目的としたQForce-RLを提案する。
QForce-RLはE2HRLの利点を生かし、全体的なRLアクションを減らして所望のポリシーを学習し、QuaRLはハードウェアアクセラレーションのための量子化ベースのSIMDである。
このアーキテクチャは、リソース制約のあるデバイスにスケーラブルで、レイテンシ、スループット、電力、エネルギー効率の柔軟性を備えたパラメトリック化された効率的なデプロイメントを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) has outperformed other counterparts in sequential decision-making and dynamic environment control. However, FPGA deployment is significantly resource-expensive, as associated with large number of computations in training agents with high-quality images and possess new challenges. In this work, we propose QForce-RL takes benefits of quantization to enhance throughput and reduce energy footprint with light-weight RL architecture, without significant performance degradation. QForce-RL takes advantages from E2HRL to reduce overall RL actions to learn desired policy and QuaRL for quantization based SIMD for hardware acceleration. We have also provided detailed analysis for different RL environments, with emphasis on model size, parameters, and accelerated compute ops. The architecture is scalable for resource-constrained devices and provide parametrized efficient deployment with flexibility in latency, throughput, power, and energy efficiency. The proposed QForce-RL provides performance enhancement up to 2.3x and better FPS - 2.6x compared to SoTA works.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、シーケンシャルな意思決定と動的環境制御において、他の分野よりも優れています。
しかし、FPGAの展開は、高品質な画像を持つ訓練エージェントの大量の計算に関連し、新たな課題を抱えるなど、リソース負荷がかなり大きい。
本稿では,QForce-RLの量子化によるスループットの向上と軽量RLアーキテクチャによるエネルギーフットプリントの削減を,性能の大幅な低下を伴わずに行うことを提案する。
QForce-RLはE2HRLの利点を生かし、全体的なRLアクションを減らして所望のポリシーを学習し、QuaRLはハードウェアアクセラレーションのための量子化ベースのSIMDである。
また、モデルサイズ、パラメータ、高速化された計算オプティマスに重点を置いて、異なるRL環境について詳細な分析を行った。
このアーキテクチャは、リソース制約のあるデバイスにスケーラブルで、レイテンシ、スループット、電力、エネルギー効率の柔軟性を備えたパラメトリック化された効率的なデプロイメントを提供する。
提案されたQForce-RLはSoTAの2.3倍の性能向上と2.6倍のFPSを実現している。
関連論文リスト
- Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - ULTHO: Ultra-Lightweight yet Efficient Hyperparameter Optimization in Deep Reinforcement Learning [50.53705050673944]
ULTHOは,1回の走行で深部RLで高速HPOを実現するための,超軽量で強力なフレームワークである。
具体的には、HPOプロセスは、クラスタ化されたアーム(MABC)を備えたマルチアームバンディットとして定式化し、それを長期の戻り値の最適化に直接リンクする。
ALE、Procgen、MiniGrid、PyBulletなどのベンチマークでULTHOをテストする。
論文 参考訳(メタデータ) (2025-03-08T07:03:43Z) - Multiobjective Vehicle Routing Optimization with Time Windows: A Hybrid Approach Using Deep Reinforcement Learning and NSGA-II [52.083337333478674]
本稿では、時間窓を用いた多目的車両ルーティング問題(MOVRPTW)に対処するために、ウェイト・アウェア・ディープ・強化学習(WADRL)手法を提案する。
WADRLの結果を最適化するために非支配的ソート遺伝的アルゴリズム-II (NSGA-II) 法を用いる。
論文 参考訳(メタデータ) (2024-07-18T02:46:06Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Efficient Transformer-based Hyper-parameter Optimization for Resource-constrained IoT Environments [9.72257571115249]
本稿では,トランスフォーマーアーキテクチャとアクター批判型強化学習モデルTRL-HPOを組み合わせた新しいアプローチを提案する。
その結果、TRL-HPOはこれらの手法の分類結果を同時に6.8%上回る結果となった。
本稿では,資源制約環境下でのRLベースのHPOプロセスを改善するための新しい方法について述べる。
論文 参考訳(メタデータ) (2024-03-18T20:35:35Z) - Scalable Volt-VAR Optimization using RLlib-IMPALA Framework: A
Reinforcement Learning Approach [11.11570399751075]
本研究は, 深層強化学習(DRL)の可能性を活用した新しい枠組みを提案する。
DRLエージェントをRAYプラットフォームに統合することにより、RAYのリソースを効率的に利用してシステム適応性と制御を改善する新しいフレームワークであるRLlib-IMPALAの開発が容易になる。
論文 参考訳(メタデータ) (2024-02-24T23:25:35Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - Sample-Efficient Automated Deep Reinforcement Learning [33.53903358611521]
本稿では、任意のオフポリティックなRLアルゴリズムをメタ最適化する、人口ベース自動RLフレームワークを提案する。
集団全体で収集した経験を共有することで,メタ最適化のサンプル効率を大幅に向上させる。
我々は,MuJoCoベンチマークスイートで人気のTD3アルゴリズムを用いたケーススタディにおいて,サンプル効率のよいAutoRLアプローチの能力を実証した。
論文 参考訳(メタデータ) (2020-09-03T10:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。