論文の概要: Forethought and Hindsight in Credit Assignment
- arxiv url: http://arxiv.org/abs/2010.13685v1
- Date: Mon, 26 Oct 2020 16:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 17:47:30.788074
- Title: Forethought and Hindsight in Credit Assignment
- Title(参考訳): クレジット割り当ての先入観と後見
- Authors: Veronica Chelu, Doina Precup, Hado van Hasselt
- Abstract要約: 我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
- 参考スコア(独自算出の注目度): 62.05690959741223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of credit assignment in reinforcement learning and
explore fundamental questions regarding the way in which an agent can best use
additional computation to propagate new information, by planning with internal
models of the world to improve its predictions. Particularly, we work to
understand the gains and peculiarities of planning employed as forethought via
forward models or as hindsight operating with backward models. We establish the
relative merits, limitations and complementary properties of both planning
mechanisms in carefully constructed scenarios. Further, we investigate the best
use of models in planning, primarily focusing on the selection of states in
which predictions should be (re)-evaluated. Lastly, we discuss the issue of
model estimation and highlight a spectrum of methods that stretch from explicit
environment-dynamics predictors to more abstract planner-aware models.
- Abstract(参考訳): 我々は,強化学習における信用割当の問題に対処し,エージェントが新たな情報伝達に最適な計算方法や,その予測を改善するための世界の内的モデルによる計画について検討する。
特に,前方モデルや後方モデルによる後見操作として採用する計画の成果や特徴を理解するために取り組んでいる。
我々は,注意深く構築されたシナリオにおいて,双方の計画機構の相対的メリット,限界,補完的特性を確立する。
さらに,予測を(再)評価すべき状態の選択に主眼を置き,計画におけるモデルの最適利用について検討する。
最後に,モデル推定の問題について議論し,明示的な環境力学予測子からより抽象的なプランナー・アウェアモデルへ拡張する手法のスペクトルを強調する。
関連論文リスト
- Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。
ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。
当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Model Complexity of Program Phases [0.5439020425818999]
リソース制限コンピューティングシステムでは、シーケンス予測モデルは厳密な制約の下で動作しなければならない。
これらの条件下で予測できる様々なモデルが利用可能であり、ある意味では実装コストの削減に重点を置いている。
これらのリソース制約されたシーケンス予測モデルは、実際には、実装のコストと予測の品質の根本的なトレードオフを示す。
論文 参考訳(メタデータ) (2023-10-05T19:50:15Z) - Prediction-Oriented Bayesian Active Learning [51.426960808684655]
予測情報ゲイン(EPIG)は、パラメータではなく予測空間における情報ゲインを測定する。
EPIGは、さまざまなデータセットやモデルにわたるBALDと比較して、予測パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-17T10:59:57Z) - Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - A review of predictive uncertainty estimation with machine learning [0.0]
機械学習アルゴリズムを用いて予測不確実性推定の話題を概観する。
我々は確率的予測を評価するための関連する指標(一貫性スコアリング関数と適切なスコアリングルール)について論じる。
このレビューでは、ユーザーのニーズに合わせて新しいアルゴリズムを開発する方法についての理解を深める。
論文 参考訳(メタデータ) (2022-09-17T10:36:30Z) - Planning with Diffusion for Flexible Behavior Synthesis [125.24438991142573]
我々は、できるだけ多くの軌道最適化パイプラインをモデリング問題に折り畳むことがどう見えるか検討する。
我々の技術的アプローチの核心は、軌道を反復的にデノベーションすることで計画する拡散確率モデルにある。
論文 参考訳(メタデータ) (2022-05-20T07:02:03Z) - Counterfactual Plans under Distributional Ambiguity [12.139222986297263]
本研究では,モデルパラメータの分布を部分的に規定したモデル不確実性の下での対実計画について検討する。
まず,不確実性定量化ツールを提案する。
次に,有効性向上のための対策計画を調整するための補正方法を提案する。
論文 参考訳(メタデータ) (2022-01-29T03:41:47Z) - A Consciousness-Inspired Planning Agent for Model-Based Reinforcement
Learning [104.3643447579578]
本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。
この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
論文 参考訳(メタデータ) (2021-06-03T19:35:19Z) - Goal-Directed Planning for Habituated Agents by Active Inference Using a
Variational Recurrent Neural Network [5.000272778136268]
本研究では, 予測符号化(PC)とアクティブ推論(AIF)フレームワークが, 低次元潜在状態空間における事前分布を学習することにより, より優れた一般化を実現できることを示す。
提案モデルでは, 最適潜伏変数を推定し, 実験結果の最小化のためのシナプス重みを推定することにより学習を行う。
提案手法は,シミュレーションにおけるロボットタスクと複雑なロボットタスクの両方を用いて評価し,限られた学習データを用いた学習における十分な一般化を実証した。
論文 参考訳(メタデータ) (2020-05-27T06:43:59Z) - Bootstrapped model learning and error correction for planning with
uncertainty in model-based RL [1.370633147306388]
自然の目的は、環境のダイナミクスを正確に反映したモデルを学ぶことである。
本稿では,不確実性を考慮した強化学習エージェントによるモデルミス特定の問題について検討する。
本稿では,将来の状態と報酬の分布を学習するブートストラップ型マルチヘッドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-15T15:41:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。