論文の概要: A High-Throughput Compute-Efficient POMDP Hide-And-Seek-Engine (HASE) for Multi-Agent Operations
- arxiv url: http://arxiv.org/abs/2604.27162v1
- Date: Wed, 29 Apr 2026 20:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:53.789358
- Title: A High-Throughput Compute-Efficient POMDP Hide-And-Seek-Engine (HASE) for Multi-Agent Operations
- Title(参考訳): マルチエージェント動作のための高速計算効率POMDPHASE(Hyd-and-Seek-Engine)
- Authors: Timothy Flavin, Sandip Sen,
- Abstract要約: 我々はC++で構築された計算効率の高いDec-POMDPエンジン、Hide-And-Seek-Engineを紹介した。
我々のエンジンは、AMD 9950X (16コア)上の1エージェント1024環境の分散観測において、毎秒最大33,000,000ステップのスループットを維持できる。
エンジンは、ベースラインのシングルスレッドベクトル化NumPy実装よりも約3,500$times$のスループット向上を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) algorithms exhibit high sample complexity, particularly when applied to Decentralized Partially Observable Markov Decision Processes (Dec-POMDPs). As a response, projects such as SampleFactory, EnvPool, Brax, and IsaacLab migrate parallel execution of classic environments such as MuJoCo and Atari into C++ thread pools or the GPU to decrease the computational cost of environment steps. We are interested in optimizing the decision-level of human-AI joint operations, so we introduce a compute-efficient Dec-POMDP engine natively architected in C++ called Hide-And-Seek-Engine. By employing Data-Oriented Design (DOD) principles, explicit 64-byte cache-line alignment to remove false sharing, and a zero-copy PyTorch memory bridge using pinned memory and Direct Memory Access (DMA), our engine sustains throughput of up to 33,000,000 steps per second (SPS) in a single-agent, 1024-environment, decentralized observations on an AMD Ryzen 9950X (16 cores). Ten agents reduces FPS to 7M SPS with generating random actions contributing 1/3rd the total runtime for reference. The engine achieves a throughput increase of approximately 3,500$\times$ over the baseline single threaded vectorized NumPy implementation and successfully trains cooperative multi-agent policies via PPO, DQN, and SAC in minutes, validating both its performance and generality.
- Abstract(参考訳): Reinforcement Learning (RL)アルゴリズムは、特にDec-POMDP(Decentralized partial Observable Markov Decision Processs)に適用された場合、高いサンプリング複雑性を示す。
その結果、SampleFactory、EnvPool、Brax、IsaacLabといったプロジェクトは、MuJoCoやAtariといった古典的な環境の並列実行をC++スレッドプールやGPUに移行し、環境ステップの計算コストを削減した。
我々は人間とAIのジョイントオペレーションの意思決定レベルを最適化することに興味があるので、C++でネイティブに構築された計算効率の高いDec-POMDPエンジン、Hide-And-Seek-Engineを紹介します。
データ指向設計(DOD)の原則、64バイトのキャッシュラインアライメントによる偽共有の排除、ピン留めメモリとダイレクトメモリアクセス(DMA)を使用したゼロコピーのPyTorchメモリブリッジの導入により、当社のエンジンは、単一エージェントの1024環境下で最大33,000,000ステップ/秒(SPS)のスループットを維持でき、AMD Ryzen 9950X (16コア)上で分散化された観測を行う。
10個のエージェントがFPSを7M SPSに減らし、ランダムなアクションが参照の総ランタイムの1/3に寄与する。
このエンジンは、ベースラインのシングルスレッドベクトル化NumPy実装よりも約3500$\times$のスループット向上を実現し、PPO、DQN、SACを介して協調的なマルチエージェントポリシーを数分でトレーニングし、その性能と汎用性を検証した。
関連論文リスト
- GPU-Accelerated Quantum Simulation: Empirical Backend Selection, Gate Fusion, and Adaptive Precision [0.0]
本稿では,GPU加速量子回路シミュレーションフレームワークを提案する。
実証的なバックエンド選択アルゴリズムは、実行時にCuPy、PyTorchCUDA、NumPyのCPUバックエンドをベンチマークする。
ゲート融合エンジンはゲートシーケンスの自動識別により回路深さを低減する。
フォールバック機構はGPUメモリの消費を監視し、リソースの枯渇時にメモリ実行を優雅に低下させる。
論文 参考訳(メタデータ) (2026-04-04T17:46:37Z) - Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling [14.471123653746275]
Diffusion Large Language Models (dLLMs) は、並列トークン生成を可能にする反復型デノゲーションを導入している。
我々の設計では、軽量な非GEMMベクトルプリミティブ、インプレースメモリ再利用戦略、分離された混合精度メモリ階層を用いる。
論文 参考訳(メタデータ) (2026-01-28T15:37:50Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Reinforcement Learning for Long-Horizon Interactive LLM Agents [56.9860859585028]
インタラクティブデジタルエージェント(IDA)は、ステートフルなデジタル環境のAPIを利用して、ユーザの要求に応じてタスクを実行する。
対象環境で直接IDAを訓練する強化学習(RL)手法を提案する。
我々は、近似ポリシー最適化のデータおよびメモリ効率の亜種である LOOP を導出する。
論文 参考訳(メタデータ) (2025-02-03T18:35:42Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - Evaluating Homomorphic Operations on a Real-World Processing-In-Memory System [7.46176168736093]
ホモモルフィック暗号化は データのセキュリティとプライバシーのリスクを減らす 有望なアプローチだ
我々は、PIM(Processing-in-Memory)パラダイムを使用して、大規模なメモリ容量と頻繁なデータ移動要求を軽減する。
論文 参考訳(メタデータ) (2023-09-12T19:39:15Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - CPU- and GPU-based Distributed Sampling in Dirichlet Process Mixtures
for Large-scale Analysis [11.071895608242675]
Dirichlet Process Mixture Model (DPMM) は、モデルの複雑さをデータに適用するための原則的なアプローチである。
その可能性と数学的優雅さにもかかわらず、DPMMはまだ実践者が広く採用する主流のツールにはなっていない。
そこで我々は,スケーラブルなDPMMM推論のための,新しい,使いやすい統計ソフトウェアパッケージを提案する。
論文 参考訳(メタデータ) (2022-04-19T16:35:44Z) - WarpDrive: Extremely Fast End-to-End Deep Multi-Agent Reinforcement
Learning on a GPU [15.337470862838794]
我々は、単一のGPU上でエンドツーエンドのマルチエージェントRLを実装する、柔軟で軽量で使いやすいオープンソースのRLフレームワークであるWarpDriveを紹介します。
我々の設計ではシミュレーションとエージェントを並列に実行し、GPU上に1つのシミュレーションデータストアを配置して安全に更新する。
WarpDriveは、ベンチマークTagシミュレーションにおいて、2000の環境と1000のエージェント(CPU実装と比べて少なくとも100倍高いスループット)で290万の環境ステップ/秒を生成する。
論文 参考訳(メタデータ) (2021-08-31T16:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。