論文の概要: Learning Retrospective Knowledge with Reverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2007.06703v3
- Date: Sun, 1 Nov 2020 18:12:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 03:23:43.392971
- Title: Learning Retrospective Knowledge with Reverse Reinforcement Learning
- Title(参考訳): 逆強化学習によるレトロスペクティブ知識の学習
- Authors: Shangtong Zhang, Vivek Veeriah, Shimon Whiteson
- Abstract要約: 本稿では,Reverse RLを用いて学習したReverse GVFを用いた振り返り知識の表現方法を示す。
本稿では,表現学習と異常検出の両方において,逆GVFの有用性を実証的に示す。
- 参考スコア(独自算出の注目度): 74.67982734813573
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a Reverse Reinforcement Learning (Reverse RL) approach for
representing retrospective knowledge. General Value Functions (GVFs) have
enjoyed great success in representing predictive knowledge, i.e., answering
questions about possible future outcomes such as "how much fuel will be
consumed in expectation if we drive from A to B?". GVFs, however, cannot answer
questions like "how much fuel do we expect a car to have given it is at B at
time $t$?". To answer this question, we need to know when that car had a full
tank and how that car came to B. Since such questions emphasize the influence
of possible past events on the present, we refer to their answers as
retrospective knowledge. In this paper, we show how to represent retrospective
knowledge with Reverse GVFs, which are trained via Reverse RL. We demonstrate
empirically the utility of Reverse GVFs in both representation learning and
anomaly detection.
- Abstract(参考訳): 振り返り知識を表現するために,逆強化学習(逆rl)アプローチを提案する。
一般価値関数(GVF)は、予測的知識、すなわち「AからBへ運転した場合、どれくらいの燃料が消費されるか」といった将来的な結果に関する疑問に答えることで、大きな成功を収めてきた。
しかし、gvfsは「t$?」の時点で自動車がbに与えた燃料はどれくらいあるか」といった疑問に答えることができない。
このような質問は過去の出来事が現在に与える影響を強調しているため、私たちは彼らの答えをふりかえりの知識として言及します。
本稿では,Reverse RLを用いて学習したReverse GVFを用いた振り返り知識の表現方法について述べる。
本稿では,表現学習と異常検出の両方において,逆GVFの有用性を実証的に示す。
関連論文リスト
- A Study of Forward-Forward Algorithm for Self-Supervised Learning [65.268245109828]
本研究では,自己指導型表現学習におけるフォワードとバックプロパゲーションのパフォーマンスについて検討する。
我々の主な発見は、フォワードフォワードアルゴリズムが(自己教師付き)トレーニング中にバックプロパゲーションに相容れないように機能するのに対し、転送性能は研究されたすべての設定において著しく遅れていることである。
論文 参考訳(メタデータ) (2023-09-21T10:14:53Z) - Delving into the Devils of Bird's-eye-view Perception: A Review,
Evaluation and Recipe [115.31507979199564]
鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。
センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。
BEV知覚の中核的な問題は、(a)視点からBEVへの視点変換を通して失われた3D情報を再構成する方法、(b)BEVグリッドにおける基底真理アノテーションの取得方法、(d)センサー構成が異なるシナリオでアルゴリズムを適応・一般化する方法にある。
論文 参考訳(メタデータ) (2022-09-12T15:29:13Z) - Neural Knowledge Bank for Pretrained Transformers [20.416700112895974]
本稿では,事前学習したトランスフォーマーに対して,現実的な知識を蓄積する神経知識銀行を提案する。
知識注入中、元のモデルを修正し、拡張メモリスロットに事実知識を注入する。
3つのクローズドブックの質問応答データセットを使用して、余分な事実知識を格納する強力な能力を示しています。
論文 参考訳(メタデータ) (2022-07-31T09:14:34Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Counterfactual Credit Assignment in Model-Free Reinforcement Learning [47.79277857377155]
強化学習における信用割当は、将来の報酬に対する行動の影響を測定する問題である。
我々は因果理論からモデルフリーなRL設定への反事実の概念を適応する。
我々は、将来の条件値関数をベースラインや批評家として使用するポリシーアルゴリズムのファミリーを定式化し、それらが明らかに低分散であることを示す。
論文 参考訳(メタデータ) (2020-11-18T18:41:44Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。