論文の概要: Directional Ensemble Aggregation for Actor-Critics
- arxiv url: http://arxiv.org/abs/2507.23501v1
- Date: Thu, 31 Jul 2025 12:40:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.736004
- Title: Directional Ensemble Aggregation for Actor-Critics
- Title(参考訳): Actor-Criticsのための方向アンサンブルアグリゲーション
- Authors: Nicklas Werge, Yi-Shan Wu, Bahareh Tasdighi, Melih Kandemir,
- Abstract要約: Directional Ensemble Aggregation (DEA) はアクター批判フレームワークにおける$Q$-valueの推定を適応的に組み合わせたアグリゲーション手法である。
DEAは2つの完全に学習可能な方向性パラメータを導入している。
我々は、インタラクティブからサンプル効率まで、連続的な制御ベンチマークと学習体制にわたるDEAを評価し、静的アンサンブル戦略による効果を実証する。
- 参考スコア(独自算出の注目度): 13.374594152438691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy reinforcement learning in continuous control tasks depends critically on accurate $Q$-value estimates. Conservative aggregation over ensembles, such as taking the minimum, is commonly used to mitigate overestimation bias. However, these static rules are coarse, discard valuable information from the ensemble, and cannot adapt to task-specific needs or different learning regimes. We propose Directional Ensemble Aggregation (DEA), an aggregation method that adaptively combines $Q$-value estimates in actor-critic frameworks. DEA introduces two fully learnable directional parameters: one that modulates critic-side conservatism and another that guides actor-side policy exploration. Both parameters are learned using ensemble disagreement-weighted Bellman errors, which weight each sample solely by the direction of its Bellman error. This directional learning mechanism allows DEA to adjust conservatism and exploration in a data-driven way, adapting aggregation to both uncertainty levels and the phase of training. We evaluate DEA across continuous control benchmarks and learning regimes - from interactive to sample-efficient - and demonstrate its effectiveness over static ensemble strategies.
- Abstract(参考訳): 連続制御タスクにおけるオフ・ポリシー強化学習は、正確な$Q$-valueの推定に依存する。
最小値を取るなどのアンサンブルに対する保守的な集約は、過大評価バイアスを軽減するために一般的に使用される。
しかし、これらの静的ルールは粗く、アンサンブルから貴重な情報を排除し、タスク固有のニーズや異なる学習体制に適応できない。
本稿では,アクター・クリティカル・フレームワークにおける$Q$-value推定を適応的に組み合わせたアグリゲーション手法であるDirectional Ensemble Aggregation (DEA)を提案する。
DEAは2つの完全に学習可能な方向性パラメータを導入している。
どちらのパラメータもアンサンブル不一致重み付きベルマン誤差を用いて学習され、各サンプルはベルマン誤差の方向のみによって重み付けられる。
この方向性学習機構により、DEAは保守主義と探索をデータ駆動方式で調整し、不確実性レベルとトレーニングフェーズの両方にアグリゲーションを適用することができる。
我々は、インタラクティブからサンプル効率まで、連続的な制御ベンチマークと学習体制にわたるDEAを評価し、静的アンサンブル戦略による効果を実証する。
関連論文リスト
- Observations Meet Actions: Learning Control-Sufficient Representations for Robust Policy Generalization [6.408943565801689]
潜時変化("contexts")をキャプチャすることは、強化学習(RL)エージェントをトレーニング体制を越えて展開する上で鍵となる。
我々は、コンテキストベースのRLを二重推論制御問題として再認識し、2つの特性とその階層を正式に特徴付ける。
我々は,表現学習と政策学習をきれいに分離する,ELBOスタイルの文脈的エビデンスを導出する。
論文 参考訳(メタデータ) (2025-07-25T17:08:16Z) - To bootstrap or to rollout? An optimal and adaptive interpolation [4.755935781862859]
本稿では,ブートストラップ法とロールアウト法を補間するベルマン演算子のクラスを紹介する。
我々の推定器は、ブートストラップに基づく時間差(TD)推定器とロールアウトに基づくモンテカルロ(MC)手法の強度を組み合わせる。
論文 参考訳(メタデータ) (2024-11-14T19:00:00Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Actor-Critic based Improper Reinforcement Learning [61.430513757337486]
我々は,未知のマルコフ決定プロセスに対して,学習者に100万ドルのベースコントローラを付与する不適切な強化学習環境を考える。
本稿では,(1)ポリシーグラディエントに基づくアプローチ,(2)単純なアクター・クリティカル・スキームとNatural Actor-Criticスキームを切り替えるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-19T05:55:02Z) - Choice of training label matters: how to best use deep learning for
quantitative MRI parameter estimation [2.110762118285028]
自己教師付き手法に関連付けられていた低バイアスパラメータ推定は、教師付き学習フレームワーク内で複製可能であることを示す。
このアプローチは、単一の、統一されたディープラーニングパラメータ推定フレームワークのステージを設定する。
論文 参考訳(メタデータ) (2022-05-11T16:00:14Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。