Fugu-MT 論文翻訳(概要): Multi-CALF: A Policy Combination Approach with Statistical Guarantees

論文の概要: Multi-CALF: A Policy Combination Approach with Statistical Guarantees

arxiv url: http://arxiv.org/abs/2505.12350v1
Date: Sun, 18 May 2025 10:30:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.182693
Title: Multi-CALF: A Policy Combination Approach with Statistical Guarantees
Title（参考訳）: Multi-CALF: 統計的保証者による政策統合アプローチ
Authors: Georgiy Malaniya, Anton Bolychev, Grigory Yaremenko, Anastasia Krasnaya, Pavel Osinenko,
Abstract要約: 相対値改善に基づく強化学習ポリシーをインテリジェントに組み合わせたアルゴリズムであるMulti-CALFを導入する。提案手法は、標準のRLポリシーと理論的に支持された代替ポリシーを統合し、正式な安定性保証を継承する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Multi-CALF, an algorithm that intelligently combines reinforcement learning policies based on their relative value improvements. Our approach integrates a standard RL policy with a theoretically-backed alternative policy, inheriting formal stability guarantees while often achieving better performance than either policy individually. We prove that our combined policy converges to a specified goal set with known probability and provide precise bounds on maximum deviation and convergence time. Empirical validation on control tasks demonstrates enhanced performance while maintaining stability guarantees.
Abstract（参考訳）: 相対値改善に基づく強化学習ポリシーをインテリジェントに組み合わせたアルゴリズムであるMulti-CALFを導入する。提案手法では,標準のRLポリシと理論的に支持された代替ポリシを統合し,形式的な安定性保証を継承すると同時に,個々のポリシよりも優れたパフォーマンスを実現する。統合されたポリシーは、既知の確率で指定された目標に収束し、最大偏差と収束時間に関する正確な境界を提供する。制御タスクに対する実証検証は、安定性の保証を維持しながら、パフォーマンスの向上を示す。

関連論文リスト

Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文参考訳（メタデータ） (2025-06-06T10:29:05Z)
A universal policy wrapper with guarantees [0.0]
強化学習エージェントのためのユニバーサルポリシーラッパーを導入する。我々のラッパーは、高性能ベースポリシーとフォールバックポリシーを選択的に切り替える。追加のシステム知識やオンライン制約付き最適化を必要としない。
論文参考訳（メタデータ） (2025-05-18T10:37:27Z)
Strongly-polynomial time and validation analysis of policy gradient methods [3.722665817361884]
本稿では,有限状態および行動マルコフ決定過程(MDP)と強化学習(RL)のための,優位ギャップ関数と呼ばれる新しい終了基準を提案する。この利点ギャップ関数をステップサイズルールの設計に組み込むことで、最適ポリシーの定常状態分布に依存しない新しい線形収束率を導出する。政策勾配法に対してそのような強い収束特性が確立されたのはこれが初めてである。
論文参考訳（メタデータ） (2024-09-28T18:56:48Z)
Policy Bifurcation in Safe Reinforcement Learning [35.75059015441807]
いくつかのシナリオでは、実行可能なポリシーは不連続または多値であり、不連続な局所最適性の間の補間は必然的に制約違反につながる。我々は,このような現象の発生機構を最初に同定し,安全RLにおける分岐の存在を厳密に証明するためにトポロジカル解析を用いる。本稿では,ガウス混合分布をポリシ出力として利用するマルチモーダルポリシ最適化(MUPO)と呼ばれる安全なRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-19T15:54:38Z)
Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文参考訳（メタデータ） (2023-11-15T13:16:16Z)
Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文参考訳（メタデータ） (2023-02-15T23:10:06Z)
Bounded Robustness in Reinforcement Learning via Lexicographic Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文参考訳（メタデータ） (2022-09-30T08:53:18Z)
Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-12-28T05:02:26Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)
BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文参考訳（メタデータ） (2020-02-08T01:59:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。