論文の概要: What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience
- arxiv url: http://arxiv.org/abs/2206.06485v1
- Date: Mon, 13 Jun 2022 21:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 13:21:38.823797
- Title: What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience
- Title(参考訳): 何を知るべきか?
単一の経験ストリームにおける予測的特徴発見にメタ勾配降下を用いる
- Authors: Alexandra Kearney, Anna Koop, Johannes G\"unther, Patrick M. Pilarski
- Abstract要約: 計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
- 参考スコア(独自算出の注目度): 63.75363908696257
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In computational reinforcement learning, a growing body of work seeks to
construct an agent's perception of the world through predictions of future
sensations; predictions about environment observations are used as additional
input features to enable better goal-directed decision-making. An open
challenge in this line of work is determining from the infinitely many
predictions that the agent could possibly make which predictions might best
support decision-making. This challenge is especially apparent in continual
learning problems where a single stream of experience is available to a
singular agent. As a primary contribution, we introduce a meta-gradient descent
process by which an agent learns 1) what predictions to make, 2) the estimates
for its chosen predictions, and 3) how to use those estimates to generate
policies that maximize future reward -- all during a single ongoing process of
continual learning. In this manuscript we consider predictions expressed as
General Value Functions: temporally extended estimates of the accumulation of a
future signal. We demonstrate that through interaction with the environment an
agent can independently select predictions that resolve partial-observability,
resulting in performance similar to expertly specified GVFs. By learning,
rather than manually specifying these predictions, we enable the agent to
identify useful predictions in a self-supervised manner, taking a step towards
truly autonomous systems.
- Abstract(参考訳): 計算強化学習において、増大する研究は、将来の感覚の予測を通じてエージェントの世界の知覚を構築することを目的としており、より良いゴール指向の意思決定を可能にするために、環境観察に関する予測が追加の入力機能として使用される。
この一連の作業におけるオープンな課題は、エージェントがどの予測が意思決定に最も適するかを、無限に多くの予測から決定することである。
この課題は、単一エージェントに単一の経験の流れが利用できる連続学習問題において特に顕著である。
第一の貢献として,エージェントが学習するメタ勾配降下プロセスを紹介する。
1)何を予測すべきか
2) 選択された予測の見積り,及び
3)これらの見積もりを使って、将来の報酬を最大化するポリシを生成するには、どのように使うか。
この原稿では、一般的な値関数として表現される予測について考察する: 将来の信号の蓄積の時間的拡張推定。
本研究では, エージェントが環境とのインタラクションを通じて, 部分観測可能性を解決する予測を独立に選択できることを実証する。
これらの予測を手動で指定するのではなく、エージェントが自己管理的な方法で有用な予測を特定できるようにし、真に自律的なシステムに向けた一歩を踏み出す。
関連論文リスト
- Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - GVFs in the Real World: Making Predictions Online for Water Treatment [23.651798878534635]
実際の飲料水処理プラントにおける強化学習に基づく予測手法の適用について検討する。
まず、このデータセットを説明し、季節性、非定常性、部分観測可能性といった課題を強調します。
オンラインで学習するTDエージェントに対してオンライン更新を行わずに、純粋にオフラインで訓練されたTDエージェントを比較して、デプロイメントにおける学習の重要性を示す。
論文 参考訳(メタデータ) (2023-12-04T04:49:10Z) - Making Decisions under Outcome Performativity [9.962472413291803]
我々は、新しい最適性の概念、パフォーマンス的全予測を導入する。
性能的全予測器は、最適な決定ルールを同時に符号化する単一の予測器である。
本研究では,性能予測の自然な制約の下で,効率的な性能予測器が存在することを示す。
論文 参考訳(メタデータ) (2022-10-04T17:04:47Z) - Predicting from Predictions [18.393971232725015]
観測データから,結果に対する予測の因果的影響を同定する方法について検討した。
予測から予測する教師あり学習は,特徴,予測,結果の間の伝達可能な機能的関係を見出すことができることを示す。
論文 参考訳(メタデータ) (2022-08-15T16:57:02Z) - Finding Useful Predictions by Meta-gradient Descent to Improve
Decision-making [1.384055225262046]
我々は、一般値関数として表現される予測に焦点をあてる: 将来的な信号の蓄積の時間的拡張推定。
ひとつの課題は、エージェントが意思決定をサポートする可能性のある予測を、無限に多くの予測から決定することである。
これらの予測を手動で指定するのではなく、学習することにより、エージェントは自己管理的な方法で有用な予測を特定できる。
論文 参考訳(メタデータ) (2021-11-18T20:17:07Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - When Does Uncertainty Matter?: Understanding the Impact of Predictive
Uncertainty in ML Assisted Decision Making [68.19284302320146]
我々は,異なるレベルの専門知識を持つ人々が,異なるタイプの予測不確実性にどう反応するかを評価するために,ユーザスタディを実施している。
その結果,後続の予測分布を示すことは,MLモデルの予測との相違点が小さくなることがわかった。
このことは、後続の予測分布は、人間の分布の種類や専門性を考慮し、注意を払って使用するべき有用な決定支援として役立つ可能性があることを示唆している。
論文 参考訳(メタデータ) (2020-11-12T02:23:53Z) - Counterfactual Predictions under Runtime Confounding [74.90756694584839]
本研究は, 過去のデータからすべての関連要因を抽出した環境で, 事実予測タスクについて検討する。
本稿では,この環境下での対実予測モデル学習のための2次ロバスト手法を提案する。
論文 参考訳(メタデータ) (2020-06-30T15:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。