論文の概要: CANDID DAC: Leveraging Coupled Action Dimensions with Importance Differences in DAC
- arxiv url: http://arxiv.org/abs/2407.05789v2
- Date: Tue, 17 Sep 2024 09:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-18 21:41:27.954986
- Title: CANDID DAC: Leveraging Coupled Action Dimensions with Importance Differences in DAC
- Title(参考訳): CANDID DAC:DACにおける重要度の違いを考慮した結合アクション次元の活用
- Authors: Philipp Bordne, M. Asif Hasan, Eddie Bergman, Noor Awad, André Biedenkapp,
- Abstract要約: アクション次元間の相互依存と異なる重要性は、DAC問題の鍵となる特徴である。
我々は、CANDIDの特性をシミュレートする新しいホワイトボックスベンチマークをDACBenchスイートに導入する。
我々は,CANDID行動空間における因子化政策の独立学習において,シーケンシャルポリシーが顕著に優れていることを示す。
- 参考スコア(独自算出の注目度): 4.183033416782151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-dimensional action spaces remain a challenge for dynamic algorithm configuration (DAC). Interdependencies and varying importance between action dimensions are further known key characteristics of DAC problems. We argue that these Coupled Action Dimensions with Importance Differences (CANDID) represent aspects of the DAC problem that are not yet fully explored. To address this gap, we introduce a new white-box benchmark within the DACBench suite that simulates the properties of CANDID. Further, we propose sequential policies as an effective strategy for managing these properties. Such policies factorize the action space and mitigate exponential growth by learning a policy per action dimension. At the same time, these policies accommodate the interdependence of action dimensions by fostering implicit coordination. We show this in an experimental study of value-based policies on our new benchmark. This study demonstrates that sequential policies significantly outperform independent learning of factorized policies in CANDID action spaces. In addition, they overcome the scalability limitations associated with learning a single policy across all action dimensions. The code used for our experiments is available under https://github.com/PhilippBordne/candidDAC.
- Abstract(参考訳): 高次元のアクション空間は、動的アルゴリズム構成(DAC)の課題である。
アクション次元間の相互依存と異なる重要性は、DAC問題のさらに重要な特徴である。
我々は、これらの結合行動次元と重要度差(CANDID)は、まだ十分に研究されていないDAC問題の側面を表していると論じる。
このギャップに対処するため、我々はCANDIDの特性をシミュレートする新しいホワイトボックスベンチマークをDACBenchスイート内に導入した。
さらに、これらのプロパティを管理するための効果的な戦略として、シーケンシャルポリシーを提案する。
このようなポリシーはアクション空間を分解し、アクション次元ごとのポリシーを学ぶことで指数的な成長を緩和する。
同時に、これらのポリシーは暗黙の調整を促進することによって、行動次元の相互依存に対応する。
我々は、新しいベンチマークで価値ベースのポリシーを実験的に検討した。
本研究は、CANDIDアクション空間における因子化ポリシーの独立学習において、シーケンシャルポリシーが顕著に優れていることを示す。
さらに、すべてのアクションディメンジョンにわたって単一のポリシーを学ぶことに関連するスケーラビリティの制限を克服します。
我々の実験で使われたコードはhttps://github.com/PhilippBordne/candidDAC.comで入手できる。
関連論文リスト
- Discovering Behavioral Modes in Deep Reinforcement Learning Policies
Using Trajectory Clustering in Latent Space [0.0]
本稿では,DRLポリシーの行動モードを調査するための新しいアプローチを提案する。
具体的には, Pairwise Controlled Manifold Approximation Projection (PaCMAP) を次元減少に用い, TRACLUS を軌道クラスタリングに用いた。
本手法は,多種多様な行動パターンと準最適選択をポリシーによって識別し,目標とする改善を可能にする。
論文 参考訳(メタデータ) (2024-02-20T11:50:50Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Soft Decomposed Policy-Critic: Bridging the Gap for Effective Continuous
Control with Discrete RL [47.80205106726076]
本稿では,この制限を克服するために,ソフトRLとアクター批判技術を組み合わせたSDPCアーキテクチャを提案する。
SDPCは各アクション次元を独立に識別し、共有批評家ネットワークを用いてソフトな$Q$関数を最大化する。
提案手法は,MujocoのHumanoidやBox2dのBiWalkerなど,さまざまな連続制御タスクにおいて,最先端の連続RLアルゴリズムより優れている。
論文 参考訳(メタデータ) (2023-08-20T08:32:11Z) - Latent Exploration for Reinforcement Learning [87.42776741119653]
強化学習では、エージェントは環境を探索し、相互作用することでポリシーを学ぶ。
LATent TIme-Correlated Exploration (Lattice)を提案する。
論文 参考訳(メタデータ) (2023-05-31T17:40:43Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - Causal Policy Gradients [6.123324869194195]
因果ポリシー勾配(CPG)は、重要な最先端アルゴリズムを分析する共通のフレームワークを提供する。
CPGは従来の政策の勾配を一般化し、問題領域の生成過程の事前知識を組み込む原則的な方法をもたらす。
論文 参考訳(メタデータ) (2021-02-20T14:51:12Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。