論文の概要: Learning How to Infer Partial MDPs for In-Context Adaptation and
Exploration
- arxiv url: http://arxiv.org/abs/2302.04250v1
- Date: Wed, 8 Feb 2023 18:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 15:06:42.781373
- Title: Learning How to Infer Partial MDPs for In-Context Adaptation and
Exploration
- Title(参考訳): 文脈適応と探索のための部分的MDPの推論法
- Authors: Chentian Jiang, Nan Rosemary Ke, Hado van Hasselt
- Abstract要約: 後方サンプリングは有望なアプローチであるが、ベイズ推論と動的プログラミングが必要である。
部分モデルが環境から関連する情報を除外したとしても、良い政策につながることは明らかである。
- 参考スコア(独自算出の注目度): 17.27164535440641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To generalize across tasks, an agent should acquire knowledge from past tasks
that facilitate adaptation and exploration in future tasks. We focus on the
problem of in-context adaptation and exploration, where an agent only relies on
context, i.e., history of states, actions and/or rewards, rather than
gradient-based updates. Posterior sampling (extension of Thompson sampling) is
a promising approach, but it requires Bayesian inference and dynamic
programming, which often involve unknowns (e.g., a prior) and costly
computations. To address these difficulties, we use a transformer to learn an
inference process from training tasks and consider a hypothesis space of
partial models, represented as small Markov decision processes that are cheap
for dynamic programming. In our version of the Symbolic Alchemy benchmark, our
method's adaptation speed and exploration-exploitation balance approach those
of an exact posterior sampling oracle. We also show that even though partial
models exclude relevant information from the environment, they can nevertheless
lead to good policies.
- Abstract(参考訳): タスクを一般化するためには、エージェントは将来のタスクへの適応と探索を容易にする過去のタスクから知識を取得する必要がある。
我々は文脈内適応と探索の問題に焦点を当て、エージェントは状況、すなわち状態の歴史、行動、報酬にのみ依存する。
後続サンプリング(トンプソンサンプリングの拡張)は有望なアプローチであるが、ベイズ推論と動的プログラミングを必要とする。
これらの困難に対処するために、トランスフォーマは、トレーニングタスクから推論プロセスを学習し、動的プログラミングに安価である小さなマルコフ決定プロセスとして表される部分モデルの仮説空間を考える。
シンボリック・錬金術ベンチマーク(symbolal alchemy benchmark)の我々のバージョンでは、この手法の適応速度と探索・探索のバランスは、正確に後方サンプリングされたオラクルのそれに近い。
また、部分的なモデルが環境から関連する情報を除外したとしても、良い政策につながることも示している。
関連論文リスト
- Towards Adapting Reinforcement Learning Agents to New Tasks: Insights from Q-Values [8.694989771294013]
ポリシー勾配メソッドは、サンプル効率のよい方法でそれらを活用する方法に悩まされる限り、多くのドメインで有用です。
我々は、強化学習におけるDQNのカオス的な性質を探求し、トレーニング時に保持する情報を、異なるタスクにモデルを適用するためにどのように再利用するかを理解した。
論文 参考訳(メタデータ) (2024-07-14T21:28:27Z) - Investigating the role of model-based learning in exploration and
transfer [11.652741003589027]
本稿では,モデルベースエージェントの文脈における伝達学習について検討する。
モデルベースアプローチは,移動学習におけるモデルフリーベースラインよりも優れていることがわかった。
本研究の結果から,本質的な探索と環境モデルが組み合わさって,自己監督的かつ新たな報酬関数に一般化可能なエージェントの方向性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2023-02-08T11:49:58Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Learning Neural Models for Natural Language Processing in the Face of
Distributional Shift [10.990447273771592]
特定のデータセットでひとつのタスクを実行するための強力な神経予測器をトレーニングするNLPのパラダイムが、さまざまなアプリケーションで最先端のパフォーマンスを実現している。
データ分布が定常である、すなわち、トレーニングとテストの時間の両方で、データは固定された分布からサンプリングされる、という仮定に基づいて構築される。
この方法でのトレーニングは、人間が絶えず変化する情報の流れの中で学習し、操作できる方法と矛盾する。
データ分散がモデル寿命の経過とともにシフトすることが期待される実世界のユースケースに不適応である。
論文 参考訳(メタデータ) (2021-09-03T14:29:20Z) - Meta-Reinforcement Learning by Tracking Task Non-stationarity [45.90345116853823]
本稿では,タスクの時間的進化を明示的に追跡することで,将来に向けて最適化する新しいアルゴリズム(TRIO)を提案する。
既存のほとんどの方法とは異なり、TRIOはマルコフのタスク進化過程を想定していない。
我々は,異なるシミュレーション問題に対するアルゴリズムの評価を行い,競争ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2021-05-18T21:19:41Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - Unshuffling Data for Improved Generalization [65.57124325257409]
トレーニングディストリビューションを越えた一般化は、マシンラーニングにおける中核的な課題である。
本研究では,複数の学習環境として扱われる非d.d.サブセットにデータを分割することで,アウト・オブ・ディストリビューションの一般化を向上したモデル学習を導出できることを示す。
論文 参考訳(メタデータ) (2020-02-27T03:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。