論文の概要: Real-Time Diffusion Policies for Games: Enhancing Consistency Policies with Q-Ensembles
- arxiv url: http://arxiv.org/abs/2503.16978v1
- Date: Fri, 21 Mar 2025 09:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:57:11.156884
- Title: Real-Time Diffusion Policies for Games: Enhancing Consistency Policies with Q-Ensembles
- Title(参考訳): ゲームにおけるリアルタイム拡散ポリシ - Q-Ensemblesによる一貫性ポリシの強化
- Authors: Ruoqi Zhang, Ziwei Luo, Jens Sjölund, Per Mattsson, Linus Gisslén, Alessandro Sestini,
- Abstract要約: 本稿では、一貫性モデルとQアンサンブルを組み合わせたCPQE(Consistency Policy with Q-ensembles)を紹介し、政策学習の課題に対処する。
CPQEは60Hzまでの推論速度を実現しており、これは20Hzでしか動作しない最先端の拡散ポリシーよりも大幅に改善されている。
これらの結果から,CPQEはゲームやその他のリアルタイムアプリケーションに拡散ベースのポリシーを展開するための実用的なソリューションを提供することが示された。
- 参考スコア(独自算出の注目度): 43.11094512130205
- License:
- Abstract: Diffusion models have shown impressive performance in capturing complex and multi-modal action distributions for game agents, but their slow inference speed prevents practical deployment in real-time game environments. While consistency models offer a promising approach for one-step generation, they often suffer from training instability and performance degradation when applied to policy learning. In this paper, we present CPQE (Consistency Policy with Q-Ensembles), which combines consistency models with Q-ensembles to address these challenges.CPQE leverages uncertainty estimation through Q-ensembles to provide more reliable value function approximations, resulting in better training stability and improved performance compared to classic double Q-network methods. Our extensive experiments across multiple game scenarios demonstrate that CPQE achieves inference speeds of up to 60 Hz -- a significant improvement over state-of-the-art diffusion policies that operate at only 20 Hz -- while maintaining comparable performance to multi-step diffusion approaches. CPQE consistently outperforms state-of-the-art consistency model approaches, showing both higher rewards and enhanced training stability throughout the learning process. These results indicate that CPQE offers a practical solution for deploying diffusion-based policies in games and other real-time applications where both multi-modal behavior modeling and rapid inference are critical requirements.
- Abstract(参考訳): 拡散モデルでは,ゲームエージェントの複雑な動作分布やマルチモーダルな動作分布を捉えるのに顕著な性能を示しているが,推論速度が遅いため,リアルタイムゲーム環境における現実的な展開を妨げている。
一貫性モデルは一段階生成に有望なアプローチを提供するが、政策学習に適用した場合、トレーニングの不安定性とパフォーマンス劣化に悩まされることが多い。
本稿では、一貫性モデルとQアンサンブルを組み合わせてこれらの課題に対処するCPQE(Consistency Policy with Q-Ensembles)を提案する。
複数のゲームシナリオにわたる広範な実験により、CPQEは最大60Hzの推論速度(20Hzでしか動作しない最先端の拡散ポリシーに対する大幅な改善)を実現し、マルチステップの拡散アプローチに匹敵するパフォーマンスを維持していることが示された。
CPQEは、最先端の一貫性モデルアプローチを一貫して上回り、より高い報酬と学習プロセス全体のトレーニング安定性の向上の両方を示している。
これらの結果から,CPQEは,マルチモーダル動作モデリングと高速推論の両方が重要な要件であるゲームや他のリアルタイムアプリケーションに拡散ベースのポリシーを展開するための実用的なソリューションを提供することが示された。
関連論文リスト
- Score and Distribution Matching Policy: Advanced Accelerated Visuomotor Policies via Matched Distillation [29.90613565503628]
視覚的モビリティ学習のためのスコア・アンド・ディストリビューション・マッチング・ポリシー(SDM Policy)を提案する。
SDMポリシーは拡散ベースのポリシーを2段階最適化プロセスを通じて単一ステップジェネレータに変換する。
最先端のアクション品質を持ちながら、6倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2024-12-12T13:22:02Z) - Distributing Quantum Computations, Shot-wise [1.2061873132374783]
NISQ時代の制約、ノイズに対する高感度、および量子ビット数制限は、QPUのユーザビリティに重大な障壁を課している。
本稿では,複数のQPUにまたがる単一回路におけるショットの分配を可能にする,ショットワイズ(shot-wise)と呼ばれる方法論的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-25T16:16:54Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Learning a Diffusion Model Policy from Rewards via Q-Score Matching [93.0191910132874]
本稿では,拡散モデルポリシの構造を学習されたQ-関数に関連付ける理論的枠組みを提案する。
本稿では,この理論からQスコアマッチングを示す新しいポリシー更新手法を提案する。
論文 参考訳(メタデータ) (2023-12-18T23:31:01Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - Boosting Continuous Control with Consistency Policy [14.78980095597872]
CPQL(Consistency Policy with Q-Learning)という新しい時間効率手法を提案する。
逆拡散軌道から所望の方針へのマッピングを確立することにより、時間効率の問題と不正確なガイダンスを同時に解決する。
CPQLは11のオフラインタスクと21のオンラインタスクで新たな最先端パフォーマンスを実現し、Diffusion-QLに比べて推論速度が45倍近く向上している。
論文 参考訳(メタデータ) (2023-10-10T06:26:05Z) - Benchmarking the Reliability of Post-training Quantization: a Particular
Focus on Worst-case Performance [53.45700148820669]
ポストトレーニング量子化(PTQ)は、独自のアーキテクチャやトレーニング手順を変更することなく、ディープニューラルネットワーク(DNN)を圧縮するための一般的な方法である。
その有効性と利便性にもかかわらず、分散シフトやデータノイズといった極端ケースの存在下でのPTQ手法の信頼性は明らかにされていない。
そこで本研究では,様々なPTQ手法を用いてこの問題について検討する。
論文 参考訳(メタデータ) (2023-03-23T02:55:50Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Residual Q-Networks for Value Function Factorizing in Multi-Agent
Reinforcement Learning [0.0]
マルチエージェント強化学習(MARL)のためのResidual Q-Networks(RQN)の概念を提案する。
RQNは、個人-グローバル-マックス基準(IGM)を保存する方法で、個々のQ値軌跡を変換することを学ぶ
提案手法はより高速に収束し、安定性が向上し、より広い環境群で堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-05-30T16:56:06Z) - Aggressive Q-Learning with Ensembles: Achieving Both High Sample
Efficiency and High Asymptotic Performance [12.871109549160389]
本稿では、REDQのサンプル効率とTQCの性能を改善する新しいモデルフリーアルゴリズム、AQEを提案する。
AQEは非常に単純で、批評家の分布表現もターゲットのランダム化も必要としない。
論文 参考訳(メタデータ) (2021-11-17T14:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。