Fugu-MT 論文翻訳(概要): Performative Reinforcement Learning in Gradually Shifting Environments

論文の概要: Performative Reinforcement Learning in Gradually Shifting Environments

arxiv url: http://arxiv.org/abs/2402.09838v1
Date: Thu, 15 Feb 2024 10:00:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 16:19:33.167721
Title: Performative Reinforcement Learning in Gradually Shifting Environments
Title（参考訳）: ゆるやかに変化する環境における高性能強化学習
Authors: Ben Rank, Stelios Triantafyllou, Debmalya Mandal, Goran Radanovic
Abstract要約: 本稿では,現在の環境がデプロイされたポリシと,それ以前のダイナミックスに依存するフレームワークを提案する。そこで我々は,2つのアルゴリズムを性能予測文から設定に適応させ,Mixed Delayed Retrainated Retrainingと呼ばれる新しいアルゴリズムを提案する。シミュレーションベースのテストベッドを用いて実験を行った結果,MDRRは従来の手法よりもはるかに高速に収束することがわかった。
参考スコア（独自算出の注目度）: 14.509462688246233
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When Reinforcement Learning (RL) agents are deployed in practice, they might impact their environment and change its dynamics. Ongoing research attempts to formally model this phenomenon and to analyze learning algorithms in these models. To this end, we propose a framework where the current environment depends on the deployed policy as well as its previous dynamics. This is a generalization of Performative RL (PRL) [Mandal et al., 2023]. Unlike PRL, our framework allows to model scenarios where the environment gradually adjusts to a deployed policy. We adapt two algorithms from the performative prediction literature to our setting and propose a novel algorithm called Mixed Delayed Repeated Retraining (MDRR). We provide conditions under which these algorithms converge and compare them using three metrics: number of retrainings, approximation guarantee, and number of samples per deployment. Unlike previous approaches, MDRR combines samples from multiple deployments in its training. This makes MDRR particularly suitable for scenarios where the environment's response strongly depends on its previous dynamics, which are common in practice. We experimentally compare the algorithms using a simulation-based testbed and our results show that MDRR converges significantly faster than previous approaches.
Abstract（参考訳）: 強化学習(RL)エージェントが実際にデプロイされると、環境に影響を与え、そのダイナミクスを変える可能性がある。現在進行中の研究は、この現象を正式にモデル化し、これらのモデルにおける学習アルゴリズムの分析を試みる。この目的のために,現在の環境がデプロイされたポリシと,その以前のダイナミクスに依存するフレームワークを提案する。これはPerformative RL (PRL) [Mandal et al., 2023] の一般化である。 PRLとは異なり、我々のフレームワークは環境が徐々にデプロイされたポリシーに適応するシナリオをモデル化することができる。我々は2つのアルゴリズムを実効予測文献から設定に適応させ,mixed delay repeat retraining (mdrr) と呼ばれる新しいアルゴリズムを提案する。これらのアルゴリズムが収束して比較する条件として,リトレーニング数,近似保証数,デプロイ毎のサンプル数という3つの指標を挙げる。従来のアプローチとは異なり、MDRRはトレーニングで複数のデプロイメントからのサンプルを組み合わせる。これにより、MDRRは特に、環境の応答が実際に一般的な以前のダイナミクスに強く依存するシナリオに適している。シミュレーションベースのテストベッドを用いてアルゴリズムを実験的に比較した結果,mdrrは従来の手法よりもかなり高速に収束することがわかった。

関連論文リスト

Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning [39.53836535326121]
In-context Model-based RL frameworkであるDistillation for In-Context Planning (DICP)を提案する。以上の結果から,DICPはベースラインよりも環境相互作用を著しく少なく抑えながら,最先端の性能を実現することが示唆された。
論文参考訳（メタデータ） (2025-02-26T10:16:57Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Causal Coordinated Concurrent Reinforcement Learning [8.654978787096807]
本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
論文参考訳（メタデータ） (2024-01-31T17:20:28Z)
$K$-Nearest-Neighbor Resampling for Off-Policy Evaluation in Stochastic Control [0.6906005491572401]
歴史的データからポリシーの性能を推定するための,新規な$K$-nearest 隣人パラメトリック手法を提案する。私たちの分析は、ほとんどのアプリケーションで一般的なプラクティスであるように、エピソード全体のサンプリングを可能にします。他のOPE手法と比較して、我々のアルゴリズムは最適化を必要とせず、木に基づく近接探索と並列化によって効率的に実装することができ、環境のダイナミクスのパラメトリックモデルを明示的に仮定することはない。
論文参考訳（メタデータ） (2023-06-07T23:55:12Z)
State Regularized Policy Optimization on Data with Dynamics Shift [25.412472472457324]
多くの実世界のシナリオでは、強化学習(RL)アルゴリズムは、動的シフトを持つデータ、すなわち、異なる環境ダイナミクスを持つデータに基づいて訓練される。本稿では, 同様の構造と動的に異なる多くの環境において, 最適ポリシが定常状態分布と類似していることを見出した。このような分布は、新しい環境で訓練されたポリシーを規則化するために使用され、SRPO(textbfS textbfRegularized textbfPolicy textbfOptimization)アルゴリズムにつながる。
論文参考訳（メタデータ） (2023-06-06T10:06:09Z)
One-Step Distributional Reinforcement Learning [10.64435582017292]
簡単な一段階分散強化学習(OS-DistrRL)フレームワークを提案する。当社のアプローチには,政策評価と統制の両面での統一理論があることが示されている。ほぼ確実に収束解析を行う2つのOS-DistrRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-27T06:57:00Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文参考訳（メタデータ） (2021-09-27T12:42:05Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)
Phase Retrieval using Expectation Consistent Signal Recovery Algorithm based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文参考訳（メタデータ） (2021-01-12T08:36:23Z)
Learning to Continuously Optimize Wireless Resource In Episodically Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文参考訳（メタデータ） (2020-11-16T08:24:34Z)
Robust Reinforcement Learning via Adversarial training with Langevin Dynamics [51.234482917047835]
本稿では,頑健な強化学習(RL)エージェントを訓練する難しい課題に取り組むために,サンプリング視点を導入する。本稿では,2人プレイヤポリシー手法のサンプリング版である,スケーラブルな2人プレイヤRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-02-14T14:59:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。