論文の概要: Exploration and preference satisfaction trade-off in reward-free
learning
- arxiv url: http://arxiv.org/abs/2106.04316v1
- Date: Tue, 8 Jun 2021 13:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-10 00:28:54.306247
- Title: Exploration and preference satisfaction trade-off in reward-free
learning
- Title(参考訳): 無報酬学習における探索と嗜好満足度トレードオフ
- Authors: Noor Sajid, Panagiotis Tigas, Alexey Zakharov, Zafeirios Fountas and
Karl Friston
- Abstract要約: 共役前駆体を用いた選好学習機構を備えたモデルベースベイズエージェントを提案する。
OpenAI Gym FrozenLakeと3Dのミニワールド環境において、ボラティリティと非ボラティリティについて説明する。
実験の結果,学習可能な(再帰的でない)嗜好は,探索と嗜好満足度とのトレードオフを伴っていることが示唆された。
- 参考スコア(独自算出の注目度): 3.4998703934432682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Biological agents have meaningful interactions with their environment despite
the absence of a reward signal. In such instances, the agent can learn
preferred modes of behaviour that lead to predictable states -- necessary for
survival. In this paper, we pursue the notion that this learnt behaviour can be
a consequence of reward-free preference learning that ensures an appropriate
trade-off between exploration and preference satisfaction. For this, we
introduce a model-based Bayesian agent equipped with a preference learning
mechanism (pepper) using conjugate priors. These conjugate priors are used to
augment the expected free energy planner for learning preferences over states
(or outcomes) across time. Importantly, our approach enables the agent to learn
preferences that encourage adaptive behaviour at test time. We illustrate this
in the OpenAI Gym FrozenLake and the 3D mini-world environments -- with and
without volatility. Given a constant environment, these agents learn confident
(i.e., precise) preferences and act to satisfy them. Conversely, in a volatile
setting, perpetual preference uncertainty maintains exploratory behaviour. Our
experiments suggest that learnable (reward-free) preferences entail a trade-off
between exploration and preference satisfaction. Pepper offers a
straightforward framework suitable for designing adaptive agents when reward
functions cannot be predefined as in real environments.
- Abstract(参考訳): 生物エージェントは報酬シグナルがないにもかかわらず、環境と意味のある相互作用を持つ。
このような場合、エージェントは、生存に必要な予測可能な状態につながる望ましい行動モードを学ぶことができる。
本稿では,この学習行動は,探索と選好満足度の間の適切なトレードオフを保証する報酬のない選好学習の結果であると考える。
そこで本研究では,共役前処理を用いた好み学習機構(ペッパー)を備えたモデルベースベイズエージェントを提案する。
これらの共役前駆体は、期待される自由エネルギープランナーを時間をかけて状態(または結果)よりも優先的に学習するために使用される。
重要なことに、このアプローチはエージェントがテスト時に適応的な振る舞いを奨励する好みを学習することを可能にする。
OpenAI Gym FrozenLakeと3Dのミニワールド環境において、ボラティリティと非ボラティリティについて説明する。
一定の環境が与えられると、これらのエージェントは自信(すなわち正確な)の好みを学び、それらを満たすように行動する。
逆に、不安定な環境では、永続的な選好の不確実性は探索的行動を維持する。
実験の結果,学習可能な(リワードフリー)嗜好は,探索と嗜好満足度とのトレードオフを伴っていることが示唆された。
Pepperは、報酬関数が実際の環境のように事前定義できない場合に適応エージェントを設計するのに適した簡単なフレームワークを提供する。
関連論文リスト
- On the Pros and Cons of Active Learning for Moral Preference Elicitation [32.969662205265166]
道徳的嗜好の誘惑に対する積極的学習の使用は、その根底にある道徳的嗜好に関する特定の仮定に依存していると論じる。
これらの仮定は特定の領域において好意的推論に適しているが、道徳心理学に関する先行研究は、道徳的判断には有効でないことを示唆している。
論文 参考訳(メタデータ) (2024-07-26T17:40:52Z) - Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input [17.131441665935128]
より正確な報酬モデルを学ぶのに有用な例が好まれる理由について,より詳細なデータを抽出する方法を検討する。
本研究は, 実用的特徴嗜好を取り入れることが, より効率的なユーザ適応型報酬学習に有望なアプローチであることが示唆された。
論文 参考訳(メタデータ) (2024-05-23T16:36:16Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Models of human preference for learning reward functions [80.39289349661364]
そこで我々は,一対の軌跡区間間の人為的嗜好から報酬関数を学習する。
この仮定に欠陥があることに気付き、各セグメントの後悔が示すように、人間の嗜好をモデル化することを提案する。
提案した後悔の選好モデルは、実際の人間の選好をより良く予測し、また、これらの選好から報酬関数を学習し、より人道的な政策へと導く。
論文 参考訳(メタデータ) (2022-06-05T17:58:02Z) - Causal Confusion and Reward Misidentification in Preference-Based Reward
Learning [33.944367978407904]
選好から学習する際の因果的混乱と報酬的誤認について検討した。
その結果,非因果的障害の特徴,優先条件のノイズ,部分的状態観察性の存在が,報酬の誤認を悪化させることが判明した。
論文 参考訳(メタデータ) (2022-04-13T18:41:41Z) - Safer Autonomous Driving in a Stochastic, Partially-Observable
Environment by Hierarchical Contingency Planning [10.971411555103574]
知的エージェントは、環境状態に対する信念の変化を予想する準備をすべきである。
これは特に、安全が最重要となる現実の状況をナビゲートする自動運転車(AV)に当てはまる。
また,本手法により,部分的に観察可能な安全な環境下での堅牢で安全な行動が得られ,トレーニング中に見えない環境に対して良好に一般化できることが示唆された。
論文 参考訳(メタデータ) (2022-04-13T16:47:00Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Curiosity Killed or Incapacitated the Cat and the Asymptotically Optimal
Agent [21.548271801592907]
強化学習者は、高い報酬につながる行動を選択することを学ぶエージェントである。
エージェントが任意の環境において「漸近的に最適」であると保証された場合、真の環境に関する仮定に従うと、エージェントは「破壊される」か「不活性化される」かのいずれかとなる。
我々は,メンティーというエージェントを,無謀な探索ではなく安全な探索をし,メンティーのパフォーマンスに近づくという,控えめな保証をもって提示する。
論文 参考訳(メタデータ) (2020-06-05T10:42:29Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。