論文の概要: Task-Optimal Exploration in Linear Dynamical Systems
- arxiv url: http://arxiv.org/abs/2102.05214v1
- Date: Wed, 10 Feb 2021 01:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-11 14:40:25.070855
- Title: Task-Optimal Exploration in Linear Dynamical Systems
- Title(参考訳): 線形力学系におけるタスク最適探索
- Authors: Andrew Wagenmaker, Max Simchowitz, Kevin Jamieson
- Abstract要約: タスクガイドによる探索を行い、タスクを完了させるためにエージェントが環境について正確に何を学ばなければならないかを決定する。
我々は、関心のあるタスクを完了させることの難しさを明示的に定量化する、インスタンス依存およびタスク依存の下位境界を提供する。
本研究では,タスク完了に必要な情報を正確に収集し,インスタンスとタスクの最適サンプルの複雑さを達成するための有限時間境界を提供することにより,環境を最適に探索することを示す。
- 参考スコア(独自算出の注目度): 29.552894877883883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration in unknown environments is a fundamental problem in reinforcement
learning and control. In this work, we study task-guided exploration and
determine what precisely an agent must learn about their environment in order
to complete a particular task. Formally, we study a broad class of
decision-making problems in the setting of linear dynamical systems, a class
that includes the linear quadratic regulator problem. We provide instance- and
task-dependent lower bounds which explicitly quantify the difficulty of
completing a task of interest. Motivated by our lower bound, we propose a
computationally efficient experiment-design based exploration algorithm. We
show that it optimally explores the environment, collecting precisely the
information needed to complete the task, and provide finite-time bounds
guaranteeing that it achieves the instance- and task-optimal sample complexity,
up to constant factors. Through several examples of the LQR problem, we show
that performing task-guided exploration provably improves on exploration
schemes which do not take into account the task of interest. Along the way, we
establish that certainty equivalence decision making is instance- and
task-optimal, and obtain the first algorithm for the linear quadratic regulator
problem which is instance-optimal. We conclude with several experiments
illustrating the effectiveness of our approach in practice.
- Abstract(参考訳): 未知の環境での探索は強化学習と制御の基本的な問題です。
本研究では,タスク誘導探索について検討し,特定のタスクを完了させるためにエージェントが環境について正確に何を学ばなければならないかを決定する。
形式的には、線形2次調整問題を含むクラスである線形力学系の設定における幅広い意思決定問題について研究する。
関心のあるタスクの完了の難しさを明示的に定量化する、インスタンスおよびタスク依存の下限を提供する。
計算効率の高い実験設計に基づく探索アルゴリズムを提案します。
最適に環境を探索し、タスクの完了に必要な情報を正確に収集し、インスタンスとタスクの最適なサンプル複雑性を達成することを保証する有限時間境界を提供する。
LQR問題のいくつかの例を通して、タスク誘導探索は、興味のあるタスクを考慮していない探索計画において、確実に改善されることを示す。
その過程で、確実性同値決定はインスタンス最適化およびタスク最適化であり、インスタンス最適化である線形二次レギュレータ問題に対する最初のアルゴリズムを得る。
実践におけるアプローチの有効性を実証するいくつかの実験で締めくくった。
関連論文リスト
- Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Data-CUBE: Data Curriculum for Instruction-based Sentence Representation
Learning [85.66907881270785]
本稿では,学習用マルチタスクデータの順序を列挙するデータカリキュラム,すなわちData-CUBEを提案する。
タスクレベルでは、タスク間の干渉リスクを最小化するために最適なタスクオーダーを見つけることを目的としている。
インスタンスレベルでは、タスク毎のすべてのインスタンスの難易度を測定し、トレーニングのためにそれらを簡単に微分できるミニバッチに分割します。
論文 参考訳(メタデータ) (2024-01-07T18:12:20Z) - Multi-task Representation Learning for Pure Exploration in Linear
Bandits [34.67303292713379]
線形包帯(RepBAI-LB)におけるベストアーム識別のためのマルチタスク表現学習と文脈線形包帯(RepBPI-CLB)におけるベストポリシー識別について検討する。
これら2つの問題において、全てのタスクが共通の低次元線形表現を共有しており、我々のゴールは、この機能を活用して全てのタスクの最高のアーム(政治)識別プロセスを加速することである。
タスク間の共通表現を学習することで、我々のサンプルの複雑さはタスクを独立して解決するネイティブアプローチよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-02-09T05:14:48Z) - Reinforcement Learning Approach for Multi-Agent Flexible Scheduling
Problems [0.0]
本研究では,スケジューリング問題に対する強化学習手法を提案する。
特に,本研究では,ジョブショップスケジューリング問題に対して,検索スペースを削減したオープンAIジム環境を提供する。
論文 参考訳(メタデータ) (2022-10-07T16:31:01Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Active Exploration via Experiment Design in Markov Chains [86.41407938210193]
科学と工学における重要な課題は、未知の量の興味について学ぶために実験を設計することである。
本稿では,最適値に収束したポリシを効率的に選択するアルゴリズムを提案する。
理論分析に加えて,生態モニタリングと薬理学の応用に関する枠組みを概説する。
論文 参考訳(メタデータ) (2022-06-29T00:04:40Z) - Relevance-guided Unsupervised Discovery of Abilities with
Quality-Diversity Algorithms [1.827510863075184]
本稿では,その課題に適した行動特性を自律的に発見する品質多様性アルゴリズムであるRelevance-guided Unsupervised Discovery of Abilitiesを紹介する。
我々は、ロボットが完全な感覚データに基づいて自律的にその能力を発見しなければならない、シミュレーションされたロボット環境に対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-04-21T00:29:38Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。