論文の概要: Finding Useful Predictions by Meta-gradient Descent to Improve
Decision-making
- arxiv url: http://arxiv.org/abs/2111.11212v1
- Date: Thu, 18 Nov 2021 20:17:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-26 11:32:49.898173
- Title: Finding Useful Predictions by Meta-gradient Descent to Improve
Decision-making
- Title(参考訳): 意思決定を改善するためのメタ勾配降下による有用な予測を見つける
- Authors: Alex Kearney, Anna Koop, Johannes G\"unther, Patrick M. Pilarski
- Abstract要約: 我々は、一般値関数として表現される予測に焦点をあてる: 将来的な信号の蓄積の時間的拡張推定。
ひとつの課題は、エージェントが意思決定をサポートする可能性のある予測を、無限に多くの予測から決定することである。
これらの予測を手動で指定するのではなく、学習することにより、エージェントは自己管理的な方法で有用な予測を特定できる。
- 参考スコア(独自算出の注目度): 1.384055225262046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In computational reinforcement learning, a growing body of work seeks to
express an agent's model of the world through predictions about future
sensations. In this manuscript we focus on predictions expressed as General
Value Functions: temporally extended estimates of the accumulation of a future
signal. One challenge is determining from the infinitely many predictions that
the agent could possibly make which might support decision-making. In this
work, we contribute a meta-gradient descent method by which an agent can
directly specify what predictions it learns, independent of designer
instruction. To that end, we introduce a partially observable domain suited to
this investigation. We then demonstrate that through interaction with the
environment an agent can independently select predictions that resolve the
partial-observability, resulting in performance similar to expertly chosen
value functions. By learning, rather than manually specifying these
predictions, we enable the agent to identify useful predictions in a
self-supervised manner, taking a step towards truly autonomous systems.
- Abstract(参考訳): 計算強化学習において、成長する研究機関は、未来の感覚に関する予測を通じて、エージェントの世界のモデルを表現する。
この原稿では、一般的な値関数として表現される予測に焦点を当てている: 将来の信号の蓄積の時間的拡張推定。
1つの課題は、エージェントが決定を支援するかもしれない予測を無限に多くの予測から決定することである。
本研究では,設計者の指示によらず,エージェントが学習した予測を直接指定できるメタ勾配降下法を提案する。
そのために,本研究に適した部分観測可能な領域を導入する。
エージェントが環境とのインタラクションを通じて、部分観測可能性を解決する予測を独立に選択し、結果として、専門家が選択した値関数と同じようなパフォーマンスが得られることを実証する。
これらの予測を手動で指定するのではなく、エージェントが自己管理的な方法で有用な予測を特定できるようにし、真に自律的なシステムに向けた一歩を踏み出す。
関連論文リスト
- Performative Prediction on Games and Mechanism Design [69.7933059664256]
エージェントが過去の正確性に基づいて予測を信頼するかを判断する集団リスクジレンマについて検討する。
予測が集合的な結果を形成するにつれて、社会福祉は関心の指標として自然に現れる。
よりよいトレードオフを実現し、それらをメカニズム設計に使用する方法を示します。
論文 参考訳(メタデータ) (2024-08-09T16:03:44Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Why Did This Model Forecast This Future? Closed-Form Temporal Saliency
Towards Causal Explanations of Probabilistic Forecasts [20.442850522575213]
我々は、人間の知覚に基づく情報理論の一般的な定義の上に構築する。
本稿では, 将来の予測分布の差分エントロピーの観点から, 観測窓の塩分濃度を表現することを提案する。
筆者らは,本フレームワークを用いて,発話方向予測のサンプルタスクにおいて,頭部ポーズ機能から有意な窓を復元する方法を実証的に実証した。
論文 参考訳(メタデータ) (2022-06-01T18:00:04Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Deceptive Decision-Making Under Uncertainty [25.197098169762356]
タスクを遂行しながら,外部の観察者の意図を判断できる自律エージェントの設計について検討する。
エージェントの動作をマルコフ決定プロセスとしてモデル化することにより、エージェントが複数の潜在的な目標を達成するための設定を考える。
本稿では,最大エントロピーの原理に基づいて観測者予測をモデル化し,認識戦略を効率的に生成する手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T14:56:23Z) - Test-time Collective Prediction [73.74982509510961]
マシンラーニングの複数のパーティは、将来のテストポイントを共同で予測したいと考えています。
エージェントは、すべてのエージェントの集合の集合的な専門知識の恩恵を受けることを望んでいるが、データやモデルパラメータを解放する意思はないかもしれない。
我々は、各エージェントの事前学習モデルを利用して、テスト時に集合的な予測を行う分散型メカニズムを探索する。
論文 参考訳(メタデータ) (2021-06-22T18:29:58Z) - Heterogeneous-Agent Trajectory Forecasting Incorporating Class
Uncertainty [54.88405167739227]
本稿では,エージェントのクラス確率を明示的に組み込んだヘテロジニアスエージェント軌道予測手法であるHAICUを提案する。
さらに,新たな挑戦的な実世界の自動運転データセットであるpupも紹介する。
軌道予測にクラス確率を組み込むことで,不確実性に直面した性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-04-26T10:28:34Z) - On complementing end-to-end human motion predictors with planning [31.025766804649464]
人間の運動予測のための高容量エンドツーエンドアプローチは、人間の行動における微妙なニュアンスを表現する能力を持つが、分布入力やテールイベントから外れた頑健さに苦しむ。
一方、計画ベースの予測は、適切な予測を確実に出力できます。
論文 参考訳(メタデータ) (2021-03-09T19:02:45Z) - When Does Uncertainty Matter?: Understanding the Impact of Predictive
Uncertainty in ML Assisted Decision Making [68.19284302320146]
我々は,異なるレベルの専門知識を持つ人々が,異なるタイプの予測不確実性にどう反応するかを評価するために,ユーザスタディを実施している。
その結果,後続の予測分布を示すことは,MLモデルの予測との相違点が小さくなることがわかった。
このことは、後続の予測分布は、人間の分布の種類や専門性を考慮し、注意を払って使用するべき有用な決定支援として役立つ可能性があることを示唆している。
論文 参考訳(メタデータ) (2020-11-12T02:23:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。