論文の概要: Performative Reinforcement Learning in Gradually Shifting Environments
- arxiv url: http://arxiv.org/abs/2402.09838v1
- Date: Thu, 15 Feb 2024 10:00:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 16:19:33.167721
- Title: Performative Reinforcement Learning in Gradually Shifting Environments
- Title(参考訳): ゆるやかに変化する環境における高性能強化学習
- Authors: Ben Rank, Stelios Triantafyllou, Debmalya Mandal, Goran Radanovic
- Abstract要約: 本稿では,現在の環境がデプロイされたポリシと,それ以前のダイナミックスに依存するフレームワークを提案する。
そこで我々は,2つのアルゴリズムを性能予測文から設定に適応させ,Mixed Delayed Retrainated Retrainingと呼ばれる新しいアルゴリズムを提案する。
シミュレーションベースのテストベッドを用いて実験を行った結果,MDRRは従来の手法よりもはるかに高速に収束することがわかった。
- 参考スコア(独自算出の注目度): 14.509462688246233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When Reinforcement Learning (RL) agents are deployed in practice, they might
impact their environment and change its dynamics. Ongoing research attempts to
formally model this phenomenon and to analyze learning algorithms in these
models. To this end, we propose a framework where the current environment
depends on the deployed policy as well as its previous dynamics. This is a
generalization of Performative RL (PRL) [Mandal et al., 2023]. Unlike PRL, our
framework allows to model scenarios where the environment gradually adjusts to
a deployed policy. We adapt two algorithms from the performative prediction
literature to our setting and propose a novel algorithm called Mixed Delayed
Repeated Retraining (MDRR). We provide conditions under which these algorithms
converge and compare them using three metrics: number of retrainings,
approximation guarantee, and number of samples per deployment. Unlike previous
approaches, MDRR combines samples from multiple deployments in its training.
This makes MDRR particularly suitable for scenarios where the environment's
response strongly depends on its previous dynamics, which are common in
practice. We experimentally compare the algorithms using a simulation-based
testbed and our results show that MDRR converges significantly faster than
previous approaches.
- Abstract(参考訳): 強化学習(RL)エージェントが実際にデプロイされると、環境に影響を与え、そのダイナミクスを変える可能性がある。
現在進行中の研究は、この現象を正式にモデル化し、これらのモデルにおける学習アルゴリズムの分析を試みる。
この目的のために,現在の環境がデプロイされたポリシと,その以前のダイナミクスに依存するフレームワークを提案する。
これはPerformative RL (PRL) [Mandal et al., 2023] の一般化である。
PRLとは異なり、我々のフレームワークは環境が徐々にデプロイされたポリシーに適応するシナリオをモデル化することができる。
我々は2つのアルゴリズムを実効予測文献から設定に適応させ,mixed delay repeat retraining (mdrr) と呼ばれる新しいアルゴリズムを提案する。
これらのアルゴリズムが収束して比較する条件として,リトレーニング数,近似保証数,デプロイ毎のサンプル数という3つの指標を挙げる。
従来のアプローチとは異なり、MDRRはトレーニングで複数のデプロイメントからのサンプルを組み合わせる。
これにより、MDRRは特に、環境の応答が実際に一般的な以前のダイナミクスに強く依存するシナリオに適している。
シミュレーションベースのテストベッドを用いてアルゴリズムを実験的に比較した結果,mdrrは従来の手法よりもかなり高速に収束することがわかった。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Causal Coordinated Concurrent Reinforcement Learning [8.654978787096807]
本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。
本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。
抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
論文 参考訳(メタデータ) (2024-01-31T17:20:28Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - State Regularized Policy Optimization on Data with Dynamics Shift [25.412472472457324]
多くの実世界のシナリオでは、強化学習(RL)アルゴリズムは、動的シフトを持つデータ、すなわち、異なる環境ダイナミクスを持つデータに基づいて訓練される。
本稿では, 同様の構造と動的に異なる多くの環境において, 最適ポリシが定常状態分布と類似していることを見出した。
このような分布は、新しい環境で訓練されたポリシーを規則化するために使用され、SRPO(textbfS textbfRegularized textbfPolicy textbfOptimization)アルゴリズムにつながる。
論文 参考訳(メタデータ) (2023-06-06T10:06:09Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep
Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。
我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文 参考訳(メタデータ) (2021-09-27T12:42:05Z) - Direct Random Search for Fine Tuning of Deep Reinforcement Learning
Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。
その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文 参考訳(メタデータ) (2021-09-12T20:12:46Z) - Learning to Continuously Optimize Wireless Resource in a Dynamic
Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。
学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。
我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文 参考訳(メタデータ) (2021-05-03T07:23:39Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。