論文の概要: Value-driven Hindsight Modelling
- arxiv url: http://arxiv.org/abs/2002.08329v2
- Date: Tue, 20 Oct 2020 20:18:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:19:36.573586
- Title: Value-driven Hindsight Modelling
- Title(参考訳): 価値駆動型直視モデリング
- Authors: Arthur Guez, Fabio Viola, Th\'eophane Weber, Lars Buesing, Steven
Kapturowski, Doina Precup, David Silver, Nicolas Heess
- Abstract要約: 値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
- 参考スコア(独自算出の注目度): 68.658900923595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value estimation is a critical component of the reinforcement learning (RL)
paradigm. The question of how to effectively learn value predictors from data
is one of the major problems studied by the RL community, and different
approaches exploit structure in the problem domain in different ways. Model
learning can make use of the rich transition structure present in sequences of
observations, but this approach is usually not sensitive to the reward
function. In contrast, model-free methods directly leverage the quantity of
interest from the future, but receive a potentially weak scalar signal (an
estimate of the return). We develop an approach for representation learning in
RL that sits in between these two extremes: we propose to learn what to model
in a way that can directly help value prediction. To this end, we determine
which features of the future trajectory provide useful information to predict
the associated return. This provides tractable prediction targets that are
directly relevant for a task, and can thus accelerate learning the value
function. The idea can be understood as reasoning, in hindsight, about which
aspects of the future observations could help past value prediction. We show
how this can help dramatically even in simple policy evaluation settings. We
then test our approach at scale in challenging domains, including on 57 Atari
2600 games.
- Abstract(参考訳): 値推定は強化学習(RL)パラダイムの重要な構成要素である。
データから価値予測器を効果的に学習する方法に関する問題は、RLコミュニティが調査した主要な問題の1つであり、異なるアプローチが問題領域の構造を異なる方法で活用する。
モデル学習は、観測のシーケンスに存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
対照的に、モデルフリーな手法は将来からの関心を直接的に活用するが、潜在的に弱いスカラー信号(リターンの推定値)を受け取る。
私たちは、これらの2つの極小の間に位置する、rlにおける表現学習のアプローチを開発します。
この目的のために、将来の軌道の特徴が関連する回帰を予測するのに有用な情報を提供するかを決定する。
これにより、タスクに直接関連する扱いやすい予測ターゲットが提供され、価値関数の学習を加速することができる。
この考え方は、将来の観察のどの側面が過去の価値予測に役立つかについての推論として理解することができる。
簡単なポリシー評価設定でも、これが劇的に役立つことを示します。
次に、57のatari 2600ゲームを含む、挑戦的なドメインで大規模にアプローチをテストします。
関連論文リスト
- An Information Theoretic Approach to Machine Unlearning [45.600917449314444]
学びの鍵となる課題は、モデルのパフォーマンスを保ちながら、必要なデータをタイムリーに忘れることである。
この研究では、ゼロショットのアンラーニングシナリオに対処し、未学習のアルゴリズムは、トレーニングされたモデルと忘れられるデータだけが与えられたデータを削除できなければならない。
モデルの幾何に基づいて、単純だが原則化されたゼロショットアンラーニング法を導出する。
論文 参考訳(メタデータ) (2024-02-02T13:33:30Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - You Mostly Walk Alone: Analyzing Feature Attribution in Trajectory
Prediction [52.442129609979794]
軌道予測のための最近の深層学習手法は有望な性能を示す。
そのようなブラックボックスモデルが実際にどのモデルを予測するために使うのかは、まだ不明である。
本稿では,モデル性能に対する異なるキューの貢献度を定量化する手法を提案する。
論文 参考訳(メタデータ) (2021-10-11T14:24:15Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Foresee then Evaluate: Decomposing Value Estimation with Latent Future
Prediction [37.06232589005015]
価値関数は強化学習(rl)の中心的な概念である
将来予測付き価値分解(VDFP)を提案する。
価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
論文 参考訳(メタデータ) (2021-03-03T07:28:56Z) - A framework for predicting, interpreting, and improving Learning
Outcomes [0.0]
本研究では,学生の観察的,行動的,受験的特徴に基づいて,テストスコアを予測するEmbibe Score Quotient Model(ESQ)を開発した。
ESQは、学生の将来的な採点可能性の予測や、個別の学習ナッジの提供に使用することができる。
論文 参考訳(メタデータ) (2020-10-06T11:22:27Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - The Value-Improvement Path: Towards Better Representations for
Reinforcement Learning [46.70945548475075]
我々は、RLエージェントが直面する値予測問題は、独立して対処すべきではなく、単一の、全体論的、予測問題として扱うべきだと論じる。
RLアルゴリズムは、少なくとも概ね最適なポリシーに向けて改善される一連のポリシーを生成する。
我々は、過去の価値改善パスにまたがる表現が、将来の政策改善に正確な価値評価をもたらすことを実証する。
論文 参考訳(メタデータ) (2020-06-03T12:51:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。