論文の概要: Policy Optimization via Adv2: Adversarial Learning on Advantage Functions
- arxiv url: http://arxiv.org/abs/2310.16473v2
- Date: Mon, 19 May 2025 14:04:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.10537
- Title: Policy Optimization via Adv2: Adversarial Learning on Advantage Functions
- Title(参考訳): Adv2による政策最適化: アドバンテージ関数の逆学習
- Authors: Matthieu Jonckheere, Chiara Mignacco, Gilles Stoltz,
- Abstract要約: 対人マルコフ決定過程(MDP)における学習の減少を,Q$-値に基づく対人学習に再考する。
本稿では,移行カーネルが不明な現実的なシナリオにおいて,敵対的MDPにおける学習の減少が敵的学習に与える影響について論じる。
- 参考スコア(独自算出の注目度): 6.793286055326244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit the reduction of learning in adversarial Markov decision processes [MDPs] to adversarial learning based on $Q$--values; this reduction has been considered in a number of recent articles as one building block to perform policy optimization. Namely, we first consider and extend this reduction in an ideal setting where an oracle provides value functions: it may involve any adversarial learning strategy (not just exponential weights) and it may be based indifferently on $Q$--values or on advantage functions. We then present two extensions: on the one hand, convergence of the last iterate for a vast class of adversarial learning strategies (again, not just exponential weights), satisfying a property called monotonicity of weights; on the other hand, stronger regret criteria for learning in MDPs, inherited from the stronger regret criteria of adversarial learning called strongly adaptive regret and tracking regret. Third, we demonstrate how adversarial learning, also referred to as aggregation of experts, relates to aggregation (orchestration) of expert policies: we obtain stronger forms of performance guarantees in this setting than existing ones, via yet another, simple reduction. Finally, we discuss the impact of the reduction of learning in adversarial MDPs to adversarial learning in the practical scenarios where transition kernels are unknown and value functions must be learned. In particular, we review the literature and note that many strategies for policy optimization feature a policy-improvement step based on exponential weights with estimated $Q$--values. Our main message is that this step may be replaced by the application of any adversarial learning strategy on estimated $Q$--values or on estimated advantage functions. We leave the empirical evaluation of these twists for future research.
- Abstract(参考訳): 本稿では, 対人マルコフ決定過程(MDP)における学習の削減を, 対人学習に$Q$-値に基づく対人学習に再考する。この削減は近年, 政策最適化を行うための一つのビルディングブロックとして, 第一に, オラクルが価値関数を提供する理想的な設定として検討・拡張されている。
他方では, 反逆的学習戦略において, 反逆的学習戦略(単に指数的ウェイトではなく, 反逆的学習戦略)に対する最後の反復の収束が, 重みの単調性と呼ばれる特性を満たす一方で, 反逆的学習の強い後悔基準から受け継いだMDPにおける学習に対する強い後悔基準が提示される。
第三に、専門家の集合(アグリゲーション)とも呼ばれる敵対的学習が、専門家の政策の集約(オーケストレーション)にどのように関係しているかを実証する。
最後に、遷移カーネルが未知であり、値関数が学習されなければならない現実的なシナリオにおいて、敵対的MDPにおける学習の減少が敵的学習に与える影響について論じる。
特に、本稿では、政策最適化の戦略の多くは、推定$Q$-値の指数重みに基づく政策改善のステップを特徴としており、本ステップは、推定$Q$-値の対角学習戦略の適用や、推定$Q$-値の利点関数の適用によって置き換えられる可能性がある。
我々はこれらのツイストの実証的な評価を今後の研究に残す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Performative Reinforcement Learning [8.07595093287034]
実演安定政策の概念を導入する。
この目的を何度も最適化することは、性能的に安定した政策に収束することを示します。
論文 参考訳(メタデータ) (2022-06-30T18:26:03Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Explaining, Evaluating and Enhancing Neural Networks' Learned
Representations [2.1485350418225244]
より効率的で効率的な表現への障害ではなく、いかに説明可能性が助けになるかを示す。
我々は,2つの新しいスコアを定義して,潜伏埋め込みの難易度と難易度を評価する。
表現学習課題の訓練において,提案したスコアを制約として採用することで,モデルの下流性能が向上することを示す。
論文 参考訳(メタデータ) (2022-02-18T19:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。