論文の概要: Symphony of experts: orchestration with adversarial insights in
reinforcement learning
- arxiv url: http://arxiv.org/abs/2310.16473v1
- Date: Wed, 25 Oct 2023 08:53:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 15:45:28.175590
- Title: Symphony of experts: orchestration with adversarial insights in
reinforcement learning
- Title(参考訳): 専門家の交響曲:強化学習における敵対的洞察によるオーケストレーション
- Authors: Matthieu Jonckheere (LAAS), Chiara Mignacco (LMO, CELESTE), Gilles
Stoltz (LMO, CELESTE)
- Abstract要約: 我々は、一連の専門家ポリシーが意思決定を導くオーケストレーションの概念を探求する。
我々は、自然政策勾配の分析を、任意の敵の集合戦略に拡張する。
われわれのアプローチの要点は、既存の方法に比べて明らかに透明な証明にある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured reinforcement learning leverages policies with advantageous
properties to reach better performance, particularly in scenarios where
exploration poses challenges. We explore this field through the concept of
orchestration, where a (small) set of expert policies guides decision-making;
the modeling thereof constitutes our first contribution. We then establish
value-functions regret bounds for orchestration in the tabular setting by
transferring regret-bound results from adversarial settings. We generalize and
extend the analysis of natural policy gradient in Agarwal et al. [2021, Section
5.3] to arbitrary adversarial aggregation strategies. We also extend it to the
case of estimated advantage functions, providing insights into sample
complexity both in expectation and high probability. A key point of our
approach lies in its arguably more transparent proofs compared to existing
methods. Finally, we present simulations for a stochastic matching toy model.
- Abstract(参考訳): 構造化強化学習は、特に探索が課題を引き起こすシナリオにおいて、より優れたパフォーマンスを達成するために、有利な特性を持つポリシーを活用する。
我々は、この領域をオーケストレーションの概念を通じて探求し、(小さな)専門家ポリシーの集合が意思決定をガイドし、そのモデリングが私たちの最初の貢献となる。
次に,テーブル設定におけるオーケストレーションのための値関数の後悔境界を,敵設定から後悔値の結果を転送することによって確立する。
agarwal et alにおける自然政策勾配の解析を一般化・拡張する。
[2021条5.3] 任意の敵の集合戦略
また,推定アドバンテージ関数の場合にも拡張し,期待値と確率値の両方において,サンプル複雑性に関する洞察を提供する。
われわれのアプローチの要点は、既存の方法に比べて明らかに透明な証明にある。
最後に,確率的マッチング玩具モデルのシミュレーションを提案する。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Hierarchical Decomposition of Prompt-Based Continual Learning:
Rethinking Obscured Sub-optimality [55.88910947643436]
大量のラベルのないデータを実際に扱うためには、自己教師付き事前トレーニングが不可欠である。
HiDe-Promptは、タスク固有のプロンプトと統計のアンサンブルで階層的なコンポーネントを明示的に最適化する革新的なアプローチである。
実験では,HiDe-Promptの優れた性能と,継続学習における事前学習パラダイムへの頑健さを実証した。
論文 参考訳(メタデータ) (2023-10-11T06:51:46Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Performative Reinforcement Learning [8.07595093287034]
実演安定政策の概念を導入する。
この目的を何度も最適化することは、性能的に安定した政策に収束することを示します。
論文 参考訳(メタデータ) (2022-06-30T18:26:03Z) - On the Complexity of Adversarial Decision Making [101.14158787665252]
決定推定係数は, 相手の意思決定に対する後悔度を低く抑えるのに必要であり, 十分であることを示す。
我々は、決定推定係数を他のよく知られた複雑性尺度の変種に結びつける新しい構造結果を提供する。
論文 参考訳(メタデータ) (2022-06-27T06:20:37Z) - Explaining, Evaluating and Enhancing Neural Networks' Learned
Representations [2.1485350418225244]
より効率的で効率的な表現への障害ではなく、いかに説明可能性が助けになるかを示す。
我々は,2つの新しいスコアを定義して,潜伏埋め込みの難易度と難易度を評価する。
表現学習課題の訓練において,提案したスコアを制約として採用することで,モデルの下流性能が向上することを示す。
論文 参考訳(メタデータ) (2022-02-18T19:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。