論文の概要: Sample-Efficient Reinforcement Learning in the Presence of Exogenous
Information
- arxiv url: http://arxiv.org/abs/2206.04282v1
- Date: Thu, 9 Jun 2022 05:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 15:29:01.176526
- Title: Sample-Efficient Reinforcement Learning in the Presence of Exogenous
Information
- Title(参考訳): 外因性情報の存在下でのサンプル効率強化学習
- Authors: Yonathan Efroni, Dylan J. Foster, Dipendra Misra, Akshay Krishnamurthy
and John Langford
- Abstract要約: 実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。
本稿では,強化学習のための新しい問題設定法であるExogenous Decision Process (ExoMDP)を導入する。
内因性成分の大きさのサンプル複雑度で準最適ポリシーを学習するアルゴリズムであるExoRLを提案する。
- 参考スコア(独自算出の注目度): 77.19830787312743
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In real-world reinforcement learning applications the learner's observation
space is ubiquitously high-dimensional with both relevant and irrelevant
information about the task at hand. Learning from high-dimensional observations
has been the subject of extensive investigation in supervised learning and
statistics (e.g., via sparsity), but analogous issues in reinforcement learning
are not well understood, even in finite state/action (tabular) domains. We
introduce a new problem setting for reinforcement learning, the Exogenous
Markov Decision Process (ExoMDP), in which the state space admits an (unknown)
factorization into a small controllable (or, endogenous) component and a large
irrelevant (or, exogenous) component; the exogenous component is independent of
the learner's actions, but evolves in an arbitrary, temporally correlated
fashion. We provide a new algorithm, ExoRL, which learns a near-optimal policy
with sample complexity polynomial in the size of the endogenous component and
nearly independent of the size of the exogenous component, thereby offering a
doubly-exponential improvement over off-the-shelf algorithms. Our results
highlight for the first time that sample-efficient reinforcement learning is
possible in the presence of exogenous information, and provide a simple,
user-friendly benchmark for investigation going forward.
- Abstract(参考訳): 実世界の強化学習アプリケーションでは、学習者の観察空間は、その課題に関する関連情報と無関係情報の両方でユビキタスに高次元である。
高次元観測からの学習は、教師付き学習と統計学(例えば、疎性を通して)において広範な研究の対象となっているが、強化学習における類似の問題は、有限状態/行動(タブラル)領域においてもよく理解されていない。
本稿では, 強化学習のための新たな問題設定法であるExoMDP(Exogenous Markov Decision Process)を導入する。このプロセスでは, 状態空間が(未知の)分解を小さな制御可能な(あるいは内在的)成分と大きな非関連(または外在的)成分に分解し, 外部固有成分は学習者の行動とは独立に進化するが, 任意の時間的相関で進化する。
内因性成分のサイズと外因性成分のサイズにほぼ依存せず,サンプル複雑性多項式を持つ準最適ポリシを学習し,オフザシェルフアルゴリズムを2倍に改善するアルゴリズムであるExoRLを提案する。
本研究は,外部情報の存在下ではサンプル効率のよい強化学習が可能であることを初めて強調し,今後,ユーザフレンドリーに調査を行うための簡易なベンチマークを提供する。
関連論文リスト
- A Unified Framework for Neural Computation and Learning Over Time [56.44910327178975]
Hamiltonian Learningはニューラルネットワークを"時間とともに"学習するための新しい統合フレームワーク
i)外部ソフトウェアソルバを必要とせずに統合できる、(ii)フィードフォワードおよびリカレントネットワークにおける勾配に基づく学習の概念を一般化する、(iii)新しい視点で開放する、という微分方程式に基づいている。
論文 参考訳(メタデータ) (2024-09-18T14:57:13Z) - Unsupervised Spatial-Temporal Feature Enrichment and Fidelity
Preservation Network for Skeleton based Action Recognition [20.07820929037547]
非教師なし骨格に基づく行動認識は近年顕著な進歩を遂げている。
既存の教師なし学習手法は、過度なオーバーフィッティング問題に悩まされる。
本稿では,高機能化を実現するために,非教師付き時空間特徴強調・忠実度保存フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-25T09:24:07Z) - Balancing Explainability-Accuracy of Complex Models [8.402048778245165]
我々は,コリレーションの影響に基づき,複雑なモデルに対する新しいアプローチを提案する。
独立機能と依存機能の両方のシナリオに対するアプローチを提案する。
従属特徴に対する提案手法の複雑さの上限を提供する。
論文 参考訳(メタデータ) (2023-05-23T14:20:38Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - The Distributed Information Bottleneck reveals the explanatory structure
of complex systems [1.52292571922932]
Information Bottleneck (IB) は、入力と出力の関係を理解するための情報理論フレームワークである。
我々は、入力の複数のコンポーネントにボトルネックを分散する重要な修正が、科学における解釈可能なディープラーニングのための根本的に新しい道を開くことを示しています。
応用数学と凝縮物質物理学から導かれたシステムにおける分散IBの説明ユーティリティを実証する。
論文 参考訳(メタデータ) (2022-04-15T17:59:35Z) - Provable Reinforcement Learning with a Short-Term Memory [68.00677878812908]
我々はPMDPsの新しいサブクラスについて研究し、その潜在状態は、最近の短い長さ$m$の履歴によって復号化することができる。
特に、リッチ・オブザーブレーション・セッティングにおいて、指数関数的にスケールするサンプル複雑性を持つ新しい「モーメントマッチング」アプローチを用いて、新しいアルゴリズムを開発する。
以上の結果から,これらの環境下での強化学習には短期記憶が十分であることが示唆された。
論文 参考訳(メタデータ) (2022-02-08T16:39:57Z) - A Survey on Extraction of Causal Relations from Natural Language Text [9.317718453037667]
因果関係はテキストに頻繁に現れ、テキストから因果関係を計算することで、予測タスクのための因果関係を構築するのに役立つ。
既存の因果抽出技術には、知識ベース、統計機械学習(ML)ベース、深層学習ベースアプローチなどがある。
論文 参考訳(メタデータ) (2021-01-16T10:49:39Z) - Provably Efficient Exploration for Reinforcement Learning Using
Unsupervised Learning [96.78504087416654]
強化学習(RL)問題における効率的な探索に教師なし学習を用い,本パラダイムが有効であるかどうかを考察する。
本稿では,教師なし学習アルゴリズムと非線形表RLアルゴリズムという,2つのコンポーネント上に構築された汎用的なアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-15T19:23:59Z) - Multilinear Compressive Learning with Prior Knowledge [106.12874293597754]
マルチリニア圧縮学習(MCL)フレームワークは、マルチリニア圧縮センシングと機械学習をエンドツーエンドシステムに統合する。
MCLの背後にある主要なアイデアは、下流学習タスクの信号から重要な特徴を捉えることのできるテンソル部分空間の存在を仮定することである。
本稿では、上記の要件、すなわち、関心の信号が分離可能なテンソル部分空間をどうやって見つけるかという、2つの要件に対処する新しい解決策を提案する。
論文 参考訳(メタデータ) (2020-02-17T19:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。