論文の概要: Comparative Analysis of Parameterized Action Actor-Critic Reinforcement Learning Algorithms for Web Search Match Plan Generation
- arxiv url: http://arxiv.org/abs/2510.03064v1
- Date: Fri, 03 Oct 2025 14:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.432301
- Title: Comparative Analysis of Parameterized Action Actor-Critic Reinforcement Learning Algorithms for Web Search Match Plan Generation
- Title(参考訳): Web検索マッチング計画生成のためのパラメータ化行動アクター・クリティカル強化学習アルゴリズムの比較解析
- Authors: Ubayd Bapoo, Clement N Nyirenda,
- Abstract要約: 本研究では,高次元意思決定タスクにおけるソフトアクター批判(SAC),グリーディアクター批判(GAC),トランシッド量子批判(TQC)の性能評価を行った。
焦点はパラメトリゼーション・アクション(PA)空間であり、リカレント・ネットワークの必要性を排除している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study evaluates the performance of Soft Actor Critic (SAC), Greedy Actor Critic (GAC), and Truncated Quantile Critics (TQC) in high-dimensional decision-making tasks using fully observable environments. The focus is on parametrized action (PA) spaces, eliminating the need for recurrent networks, with benchmarks Platform-v0 and Goal-v0 testing discrete actions linked to continuous action-parameter spaces. Hyperparameter optimization was performed with Microsoft NNI, ensuring reproducibility by modifying the codebase for GAC and TQC. Results show that Parameterized Action Greedy Actor-Critic (PAGAC) outperformed other algorithms, achieving the fastest training times and highest returns across benchmarks, completing 5,000 episodes in 41:24 for the Platform game and 24:04 for the Robot Soccer Goal game. Its speed and stability provide clear advantages in complex action spaces. Compared to PASAC and PATQC, PAGAC demonstrated superior efficiency and reliability, making it ideal for tasks requiring rapid convergence and robust performance. Future work could explore hybrid strategies combining entropy-regularization with truncation-based methods to enhance stability and expand investigations into generalizability.
- Abstract(参考訳): 本研究は, 完全可観測環境を用いた高次元意思決定作業におけるソフトアクター批判(SAC), グリーディアクター批判(GAC), トランシッド量子批判(TQC)の性能評価を行った。
このベンチマークでは、連続的なアクションパラメータ空間に関連付けられた個別のアクションをテストするPlatform-v0とGoal-v0がテストされている。
ハイパーパラメータ最適化はMicrosoft NNIで実行され、GACとTQCのコードベースを変更することで再現性を確保した。
その結果,パラメタライズドアクショングレディ・アクター・クリティカル(PAGAC)は他のアルゴリズムよりも優れており,ロボットサッカーゴールゲームでは41:24で5000回,ロボットサッカーゴールゲームでは24:04で5000回を達成していることがわかった。
その速度と安定性は、複雑な作用空間において明らかな利点をもたらす。
PASAC や PATQC と比較すると、PAGAC は効率と信頼性が優れており、迅速な収束と堅牢な性能を必要とするタスクに最適である。
今後の研究は、エントロピー規則化とトランケーションに基づく手法を組み合わせたハイブリッド戦略を探求し、安定性を高め、一般化可能性の調査を拡大する。
関連論文リスト
- TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models [29.878993349922368]
Vision-Language-Action (VLA)モデルは、ロボット操作タスクに固有の貴重な時間情報を捨て、各タイミングで視覚入力を独立に処理する。
本稿では,VLA推論品質を向上させるために,歴史的および現在の視覚表現を統合した訓練不要なTTFを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:03:34Z) - Performance-driven Constrained Optimal Auto-Tuner for MPC [36.143463447995536]
MPCのための制約付き最適オートチューニングであるCOAT-MPCを提案する。
COAT-MPCは、パフォーマンスデータを収集し、その後続の信念を更新することによって学習する。
理論的にはCOAT-MPCを解析し,性能制約を任意に高い確率で満たすことを示した。
論文 参考訳(メタデータ) (2025-03-10T09:56:08Z) - Faster Diffusion Action Segmentation [9.868244939496678]
時間的行動分類(TAS)はビデオ解析において不可欠な課題であり、連続したフレームを別のアクションセグメントに分割し分類することを目的としている。
拡散モデルの最近の進歩は、安定したトレーニングプロセスと高品質な生成能力により、TASタスクにおいて大きな成功を収めている。
本稿では,効率的かつ高性能なTASアルゴリズムであるEffiDiffActを提案する。
論文 参考訳(メタデータ) (2024-08-04T13:23:18Z) - Hyperparameters in Continual Learning: A Reality Check [53.30082523545212]
連続学習(CL)は、可塑性(新しいタスクを学ぶ)と安定性(事前知識を保持する)のトレードオフをバランスしながら、一連のタスクでモデルを訓練することを目的としている。
論文 参考訳(メタデータ) (2024-03-14T03:13:01Z) - Maximum Entropy Heterogeneous-Agent Reinforcement Learning [45.377385280485065]
近年,多エージェント強化学習(MARL)が協調ゲームに有効であることが示されている。
我々は,サンプルの複雑さ,トレーニング不安定性,および準最適ナッシュ平衡に収束するリスクに関する問題を解決するための統一的な枠組みを提案する。
The MaxEnt framework, we propose Heterogeneous-Agent Soft Actor-Critic (HASAC) algorithm。
HASACは、Bi-DexHands、Multi-Agent MuJoCo、StarCraft Challenge、Google Research Football、Multi-Agent Particle Environment、Light Aircraft Gameの6つのベンチマークで評価する。
論文 参考訳(メタデータ) (2023-06-19T06:22:02Z) - MARLIN: Soft Actor-Critic based Reinforcement Learning for Congestion
Control in Real Networks [63.24965775030673]
そこで本研究では,汎用的な渋滞制御(CC)アルゴリズムを設計するための新しい強化学習(RL)手法を提案する。
我々の解であるMARLINは、Soft Actor-Criticアルゴリズムを用いてエントロピーとリターンの両方を最大化する。
我々は,MARLINを実ネットワーク上で訓練し,実ミスマッチを克服した。
論文 参考訳(メタデータ) (2023-02-02T18:27:20Z) - Solving Continuous Control via Q-learning [54.05120662838286]
深いQ-ラーニングの簡単な修正は、アクター批判的手法による問題を大幅に軽減することを示します。
バンバン動作の離散化と値分解、協調マルチエージェント強化学習(MARL)としての単一エージェント制御のフレーミングにより、このシンプルな批判のみのアプローチは、最先端の連続アクター批判法の性能と一致する。
論文 参考訳(メタデータ) (2022-10-22T22:55:50Z) - Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and
Stability [67.8426046908398]
汎用性と安定性は,実世界における強化学習(RL)エージェントの運用において重要な2つの目的である。
本稿では,アクター・クリティック・ロス関数の自動設計法であるMetaPGを提案する。
論文 参考訳(メタデータ) (2022-04-08T20:46:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。