論文の概要: The complexity of non-stationary reinforcement learning
- arxiv url: http://arxiv.org/abs/2307.06877v1
- Date: Thu, 13 Jul 2023 16:25:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 13:59:27.253265
- Title: The complexity of non-stationary reinforcement learning
- Title(参考訳): 非定常強化学習の複雑さ
- Authors: Christos Papadimitriou, Binghui Peng
- Abstract要約: 強化学習問題における1つの状態-作用対の確率や報酬を変更するには、状態の数と同じくらいの時間を要することを示す。
単に$textitadding$新しいステートアクションペアを実装するのは、かなり簡単です。
- 参考スコア(独自算出の注目度): 11.102974563025759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of continual learning in the domain of reinforcement learning,
often called non-stationary reinforcement learning, has been identified as an
important challenge to the application of reinforcement learning. We prove a
worst-case complexity result, which we believe captures this challenge:
Modifying the probabilities or the reward of a single state-action pair in a
reinforcement learning problem requires an amount of time almost as large as
the number of states in order to keep the value function up to date, unless the
strong exponential time hypothesis (SETH) is false; SETH is a widely accepted
strengthening of the P $\neq$ NP conjecture. Recall that the number of states
in current applications of reinforcement learning is typically astronomical. In
contrast, we show that just $\textit{adding}$ a new state-action pair is
considerably easier to implement.
- Abstract(参考訳): 非定常強化学習と呼ばれる強化学習領域における継続学習の問題は、強化学習の適用において重要な課題として認識されている。
強化学習問題における単一の状態-作用対の確率や報酬を変更するには、強い指数時間仮説(SETH)が偽でない限り、値関数を最新に保つためには、状態の数と同じくらいの時間を必要とする。
現在の強化学習の応用における状態の数は通常天文学的である。
これとは対照的に、$\textit{adding}$新しいステートアクションペアを実装するのは非常に簡単である。
関連論文リスト
- Two-Step Offline Preference-Based Reinforcement Learning with Constrained Actions [38.48223545539604]
PRCと呼ばれる新しい2段階学習手法を開発した。
我々は,ロボット制御環境における各種データセットの学習効率を実証的に検証した。
論文 参考訳(メタデータ) (2023-12-30T21:37:18Z) - Causal Reinforcement Learning: A Survey [57.368108154871]
強化学習は、不確実性の下でのシーケンシャルな決定問題の解決に不可欠なパラダイムである。
主な障害の1つは、強化学習エージェントが世界に対する根本的な理解を欠いていることである。
因果性は、体系的な方法で知識を形式化できるという点で顕著な利点がある。
論文 参考訳(メタデータ) (2023-07-04T03:00:43Z) - Inverse Reinforcement Learning without Reinforcement Learning [40.7783129322142]
逆強化学習(IRL)は、専門家によるデモンストレーションを合理化する報酬関数の学習を目的としている。
従来のIRL法では、サブルーチンとしてハード強化学習問題を繰り返し解決する必要がある。
我々は、RLの難解な問題を繰り返し解くために、模倣学習の容易な問題を減らした。
論文 参考訳(メタデータ) (2023-03-26T04:35:53Z) - Sequential Knockoffs for Variable Selection in Reinforcement Learning [19.925653053430395]
マルコフ決定過程(MDP)における十分最小状態の概念を導入する。
本研究では,高次元複素非線形力学を持つシステムにおいて,最小限の十分状態を推定するSequEntial Knockoffs (SEEK) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-24T21:39:06Z) - Using Contrastive Samples for Identifying and Leveraging Possible Causal
Relationships in Reinforcement Learning [4.924126492174801]
そこで本稿では,後続の報酬に異常に大きな変動がある状態において,遷移と大きなずれを関連付ける手法を提案する。
このような遷移は因果効果としてマークされ、対応する状態-作用対が別のリプレイバッファに追加される。
我々は、CERが、あらゆる非政治強化学習アルゴリズムを含む幅広い学習タスクに有用であると信じている。
論文 参考訳(メタデータ) (2022-10-28T11:21:17Z) - Sample-Efficient Reinforcement Learning in the Presence of Exogenous
Information [77.19830787312743]
実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。
本稿では,強化学習のための新しい問題設定法であるExogenous Decision Process (ExoMDP)を導入する。
内因性成分の大きさのサンプル複雑度で準最適ポリシーを学習するアルゴリズムであるExoRLを提案する。
論文 参考訳(メタデータ) (2022-06-09T05:19:32Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - The Difficulty of Passive Learning in Deep Reinforcement Learning [26.124032923011328]
アクティブな環境相互作用のない観測データから行動する学習は、強化学習(RL)の課題としてよく知られている。
最近のアプローチでは、学習したポリシーや保守的な更新に対する制約が伴い、データセットのステートアクション分布からの強い逸脱を防ぐ。
オフライン強化学習における困難を実証的に分析する「タンデム学習」実験パラダイムを提案する。
論文 参考訳(メタデータ) (2021-10-26T20:50:49Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Instance-Dependent Complexity of Contextual Bandits and Reinforcement
Learning: A Disagreement-Based Perspective [104.67295710363679]
古典的なマルチアームバンディット問題において、インスタンス依存アルゴリズムは、ベストとセカンドベストのアーム間のギャップで「容易」な問題のパフォーマンスを向上させる。
我々は、インスタンス依存の後悔境界を得るのに十分かつ必要である複雑性尺度のファミリーを導入する。
次に、可能な限りギャップに適応する新しいオラクル効率アルゴリズムを導入し、最悪の場合にはミニマックスレートを得る。
論文 参考訳(メタデータ) (2020-10-07T01:33:06Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。