論文の概要: AP-DRL: A Synergistic Algorithm-Hardware Framework for Automatic Task Partitioning of Deep Reinforcement Learning on Versal ACAP
- arxiv url: http://arxiv.org/abs/2603.29369v1
- Date: Tue, 31 Mar 2026 07:41:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.259534
- Title: AP-DRL: A Synergistic Algorithm-Hardware Framework for Automatic Task Partitioning of Deep Reinforcement Learning on Versal ACAP
- Title(参考訳): AP-DRL: 垂直ACAPによる深層強化学習の自動タスク分割のための合成アルゴリズム・ハードウエアフレームワーク
- Authors: Enlai Li, Zhe Lin, Sharad Sinha, Wei Zhang,
- Abstract要約: AP-DRLは、AMD Versal ACAPの異種アーキテクチャを利用する自動タスク分割フレームワークである。
量子化の問題に対して、AP-DRLはハードウェア対応のアルゴリズムを用いて、FP32(CPU)、FP16(FPGA/DSP)、BF16(AIエンジン)の操作を、これらの精度フォーマットに対するVersal ACAPのネイティブサポートを活用する。
総合的な実験によると、AP-DRLはプログラム可能なロジックで最大4.17$times$、AI Engineベースラインで最大3.82$times$を達成できる。
- 参考スコア(独自算出の注目度): 12.174718779457828
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep reinforcement learning has demonstrated remarkable success across various domains. However, the tight coupling between training and inference processes makes accelerating DRL training an essential challenge for DRL optimization. Two key issues hinder efficient DRL training: (1) the significant variation in computational intensity across different DRL algorithms and even among operations within the same algorithm complicates hardware platform selection, while (2) DRL's wide dynamic range could lead to substantial reward errors with conventional FP16+FP32 mixed-precision quantization. While existing work has primarily focused on accelerating DRL for specific computing units or optimizing inference-stage quantization, we propose AP-DRL to address the above challenges. AP-DRL is an automatic task partitioning framework that harnesses the heterogeneous architecture of AMD Versal ACAP (integrating CPUs, FPGAs, and AI Engines) to accelerate DRL training through intelligent hardware-aware optimization. Our approach begins with bottleneck analysis of CPU, FPGA, and AIE performance across diverse DRL workloads, informing the design principles for AP-DRL's inter-component task partitioning and quantization optimization. The framework then addresses the challenge of platform selection through design space exploration-based profiling and ILP-based partitioning models that match operations to optimal computing units based on their computational characteristics. For the quantization challenge, AP-DRL employs a hardware-aware algorithm coordinating FP32 (CPU), FP16 (FPGA/DSP), and BF16 (AI Engine) operations by leveraging Versal ACAP's native support for these precision formats. Comprehensive experiments indicate that AP-DRL can achieve speedup of up to 4.17$\times$ over programmable logic and up to 3.82$\times$ over AI Engine baselines while maintaining training convergence.
- Abstract(参考訳): 深い強化学習は、様々な領域で顕著な成功を収めた。
しかし、トレーニングと推論プロセスの密結合により、DRLのトレーニングを加速させることがDRL最適化の重要な課題となる。
1)異なるDRLアルゴリズムと同一アルゴリズム内の操作の間でも計算強度の有意な変動はハードウェアプラットフォームの選択を複雑にし、(2)DRLの広いダイナミックレンジは、従来のFP16+FP32混合精度量子化による相当な報酬誤差をもたらす可能性がある。
既存の研究は主に特定の計算ユニットに対するDRLの高速化や推論段階の量子化の最適化に重点を置いているが、上記の課題に対処するためにAP-DRLを提案する。
AP-DRLは、AMD Versal ACAP(CPU、FPGA、AIエンジンを統合する)の異種アーキテクチャを利用して、インテリジェントなハードウェア対応最適化を通じてDRLトレーニングを加速する自動タスク分割フレームワークである。
提案手法は,CPU,FPGA,AIEの性能を多種多様なDRLワークロードでボトルネック解析し,AP-DRLのタスク分割と量子化最適化の設計原理を述べる。
このフレームワークは、設計空間探索に基づくプロファイリングとILPベースのパーティショニングモデルによるプラットフォーム選択の課題に対処する。
量子化の問題に対して、AP-DRLはハードウェア対応のアルゴリズムを用いて、FP32(CPU)、FP16(FPGA/DSP)、BF16(AIエンジン)の操作を、これらの精度フォーマットに対するVersal ACAPのネイティブサポートを活用する。
総合的な実験によると、AP-DRLはプログラム可能なロジックで最大4.17$\times$、AI Engineベースラインで最大3.82$\times$を達成でき、トレーニングコンバージェンスを維持している。
関連論文リスト
- RollArt: Scaling Agentic RL Training via Disaggregated Infrastructure [49.88201789074532]
エージェント強化学習(RL)は、大規模言語モデル(LLM)が自律的な意思決定と長期計画を行うことを可能にする。
分散インフラストラクチャ上でマルチタスクエージェントRLのスループットを最大化する分散システムであるRollArcを提案する。
論文 参考訳(メタデータ) (2025-12-27T11:14:23Z) - AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs [24.96730768606278]
異種対応非同期RLトレーニングシステムであるAReaL-Hexを提案する。
ヘテロジニアスGPU上でロールアウト生成とポリシモデルのトレーニングを実行する方法を、効果的にスケジュールする。
最大1.50倍のトレーニングスループットと1.46倍のトレーニングコストの削減を提供する。
論文 参考訳(メタデータ) (2025-11-02T04:17:30Z) - From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。
強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。
RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文 参考訳(メタデータ) (2025-10-02T01:31:10Z) - Ring-lite: Scalable Reasoning via C3PO-Stabilized Reinforcement Learning for LLMs [51.21041884010009]
Ring-liteは、強化学習(RL)により最適化されたMixture-of-Experts(MoE)ベースの大規模言語モデルである
我々のアプローチは、挑戦的なベンチマーク上でのSOTA(State-of-the-art)の小規模推論モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-06-17T17:12:34Z) - Generative AI for Deep Reinforcement Learning: Framework, Analysis, and Use Cases [60.30995339585003]
深部強化学習(DRL)は様々な分野に広く適用されており、優れた成果を上げている。
DRLは、サンプル効率の低下や一般化の低さなど、いくつかの制限に直面している。
本稿では、これらの問題に対処し、DRLアルゴリズムの性能を向上させるために、生成AI(GAI)を活用する方法について述べる。
論文 参考訳(メタデータ) (2024-05-31T01:25:40Z) - Optimal Parallelization Strategies for Active Flow Control in Deep Reinforcement Learning-Based Computational Fluid Dynamics [29.49913315698914]
Deep Reinforcement Learning (DRL) は、高ダイナミックかつ非線形なアクティブフロー制御(AFC)問題を扱うための有望なアプローチとして登場した。
本研究では、DRLに基づくアルゴリズムを並列設定で最適化することに焦点を当てる。
並列効率を約49%から約78%に向上させる。
論文 参考訳(メタデータ) (2024-02-18T09:07:30Z) - Deep reinforcement learning for machine scheduling: Methodology, the
state-of-the-art, and future directions [2.4541568670428915]
マシンスケジューリングは、製造ルールとジョブ仕様に準拠しながら、マシンへのジョブ割り当てを最適化することを目的としている。
人工知能の重要な構成要素であるDeep Reinforcement Learning (DRL)は、ゲームやロボティクスなど、さまざまな分野において有望であることを示している。
本稿では、DRLに基づくアプローチの総合的なレビューと比較を行い、その方法論、応用、利点、限界を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T22:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。