論文の概要、ライセンス

# (参考訳) 無報酬学習における探索と嗜好満足度トレードオフ [全文訳有]

Exploration and preference satisfaction trade-off in reward-free learning ( http://arxiv.org/abs/2106.04316v1 )

ライセンス: CC BY 4.0
Noor Sajid, Panagiotis Tigas, Alexey Zakharov, Zafeirios Fountas and Karl Friston(参考訳) 生物エージェントは報酬シグナルがないにもかかわらず、環境と意味のある相互作用を持つ。 このような場合、エージェントは、生存に必要な予測可能な状態につながる望ましい行動モードを学ぶことができる。 本稿では,この学習行動は,探索と選好満足度の間の適切なトレードオフを保証する報酬のない選好学習の結果であると考える。 そこで本研究では,共役前処理を用いた好み学習機構(ペッパー)を備えたモデルベースベイズエージェントを提案する。 これらの共役前駆体は、期待される自由エネルギープランナーを時間をかけて状態(または結果)よりも優先的に学習するために使用される。 重要なことに、このアプローチはエージェントがテスト時に適応的な振る舞いを奨励する好みを学習することを可能にする。 OpenAI Gym FrozenLakeと3Dのミニワールド環境において、ボラティリティと非ボラティリティについて説明する。 一定の環境が与えられると、これらのエージェントは自信(すなわち正確な)の好みを学び、それらを満たすように行動する。 逆に、不安定な環境では、永続的な選好の不確実性は探索的行動を維持する。 実験の結果,学習可能な(リワードフリー)嗜好は,探索と嗜好満足度とのトレードオフを伴っていることが示唆された。 Pepperは、報酬関数が実際の環境のように事前定義できない場合に適応エージェントを設計するのに適した簡単なフレームワークを提供する。

Biological agents have meaningful interactions with their environment despite the absence of a reward signal. In such instances, the agent can learn preferred modes of behaviour that lead to predictable states -- necessary for survival. In this paper, we pursue the notion that this learnt behaviour can be a consequence of reward-free preference learning that ensures an appropriate trade-off between exploration and preference satisfaction. For this, we introduce a model-based Bayesian agent equipped with a preference learning mechanism (pepper) using conjugate priors. These conjugate priors are used to augment the expected free energy planner for learning preferences over states (or outcomes) across time. Importantly, our approach enables the agent to learn preferences that encourage adaptive behaviour at test time. We illustrate this in the OpenAI Gym FrozenLake and the 3D mini-world environments -- with and without volatility. Given a constant environment, these agents learn confident (i.e., precise) preferences and act to satisfy them. Conversely, in a volatile setting, perpetual preference uncertainty maintains exploratory behaviour. Our experiments suggest that learnable (reward-free) preferences entail a trade-off between exploration and preference satisfaction. Pepper offers a straightforward framework suitable for designing adaptive agents when reward functions cannot be predefined as in real environments.
公開日: Tue, 8 Jun 2021 13:24:58 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] I A . s c [ 8 【私】 A! sc [ 0.65
1 v 6 1 3 4 0 1 v 6 1 3 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Exploration and preference satisfaction trade-off in reward-free learning 探索と嗜好満足度 報酬のない学習におけるトレードオフ 0.64
Noor Sajid∗ Noor Sajid∗ 0.88
WCHN, University College London, UK WCHN, University College London, UK (英語) 0.80
noor.sajid.18@ucl.ac .uk noor.sajid.18@ucl.ac .uk 0.39
Alexey Zakharov アレクセイ・ザハロフ 0.48
Huawei 2012 Laboratories, UK & huawei 2012 laboratory, uk & 0.76
Imperial College London, UK インペリアル・カレッジ・ロンドン 0.62
alexey.zakharov19@im perial.ac.uk alexey.zakharov19@ imperial.ac.uk 0.38
Panagiotis Tigas Panagiotis属 0.67
OATML, Oxford University, UK OATML, Oxford University, UK (英語) 0.75
ptigas@robots.ox.ac. uk ptigas@robots.ox.ac. uk 0.47
Zafeirios Fountas zafeirios fountas 0.67
Huawei 2012 Laboratories, UK & huawei 2012 laboratory, uk & 0.76
WCHN, University College London, UK WCHN, University College London, UK (英語) 0.80
zafeirios.fountas@hu awei.com zafeirios.fountas@hu awei.com 0.59
Karl Friston WCHN, University College London, UK カール・フリストン WCHN, University College London, UK (英語) 0.63
k.friston@ucl.ac.uk k.friston@ucl.ac.uk 0.47
Abstract Biological agents have meaningful interactions with their environment despite the absence of a reward signal. 概要 生物エージェントは報酬シグナルがないにもかかわらず、環境と意味のある相互作用を持つ。 0.56
In such instances, the agent can learn preferred modes of behaviour that lead to predictable states – necessary for survival. このような場合、エージェントは、生存に必要な予測可能な状態につながる望ましい行動モードを学ぶことができる。 0.68
In this paper, we pursue the notion that this learnt behaviour can be a consequence of reward-free preference learning that ensures an appropriate trade-off between exploration and preference satisfaction. 本稿では,この学習行動は,探索と選好満足度の間の適切なトレードオフを保証する報酬のない選好学習の結果であると考える。 0.75
For this, we introduce a model-based Bayesian agent equipped with a preference learning mechanism (pepper) using conjugate priors. そこで本研究では,共役前処理を用いた好み学習機構(ペッパー)を備えたモデルベースベイズエージェントを提案する。 0.78
These conjugate priors are used to augment the expected free energy planner for learning preferences over states (or outcomes) across time. これらの共役前駆体は、期待される自由エネルギープランナーを時間をかけて状態(または結果)よりも優先的に学習するために使用される。
訳抜け防止モード: これらの共役前駆体は 状態(または結果)を経時的に学習するための期待自由エネルギープランナーを増強する。
0.70
Importantly, our approach enables the agent to learn preferences that encourage adaptive behaviour at test time. 重要なことに、このアプローチはエージェントがテスト時に適応的な振る舞いを奨励する好みを学習することを可能にする。
訳抜け防止モード: 重要なことに 我々のアプローチは エージェントはテスト時に適応行動を促す選好を学習する。
0.74
We illustrate this in the OpenAI Gym FrozenLake and the 3D mini-world environments – with and without volatility. これはOpenAI Gym FrozenLakeと3Dのミニワールド環境 ― ボラティリティの有無に関わらず ― で説明します。 0.66
Given a constant environment, these agents learn confident (i.e., precise) preferences and act to satisfy them. 一定の環境が与えられると、これらのエージェントは自信(すなわち正確な)の好みを学び、それらを満たすように行動する。 0.59
Conversely, in a volatile setting, perpetual preference uncertainty maintains exploratory behaviour. 逆に、不安定な環境では、永続的な選好の不確実性は探索的行動を維持する。 0.37
Our experiments suggest that learnable (reward-free) preferences entail a trade-off between exploration and preference satisfaction. 実験の結果,学習可能な(リワードフリー)嗜好は,探索と嗜好満足度とのトレードオフを伴っていることが示唆された。 0.45
Pepper offers a straightforward framework suitable for designing adaptive agents, when reward functions cannot be predefined as in real environments. 報酬関数が実際の環境のように事前定義できない場合、Pepperは適応エージェントを設計するのに適した簡単なフレームワークを提供する。
訳抜け防止モード: Pepperは適応エージェントの設計に適した簡単なフレームワークを提供する 報酬関数は実際の環境では定義できない。
0.85
1 Introduction Extrinsic rewards are not necessary to characterise an agent’s interaction with its environment. 1 はじめに 外部報酬は、エージェントの環境との相互作用を特徴づけるために必要ではない。 0.68
For example, humans have been shown to rely intrinsic motivation [45, 41, 6, 70], that can adequately regulate behaviour2. 例えば、人間は行動2を適切に調節できる本質的な動機 [45, 41, 6, 70] に依存することが示されている。 0.76
Consequently, in the absence of rewards, there is a preferred したがって、報酬がない場合は優先される。 0.54
∗Corresponding author 2Explicitly, this prescribes Bayes-optimal behaviour in the sense of Bayesian design and active ∗Cor correspondinging author 2Explicly, thisscribes Bayes-Optimal behavior in sense of Bayesian design and active 0.90
learning. Preprint. 学ぶこと。 プレプリント。 0.67
Under review. レビュー中。 0.58
英語(論文から抽出)日本語訳スコア
exchange with the environment [2, 51, 15], that can be updated under changing circumstances. 環境[2, 51, 15]と交換すると、状況が変わると更新される。 0.67
Interestingly, this can result in accruing preferences – and epistemic habits – that may be at odds with objective goals, e g , kleptomania. 興味深いことに、これは目的の目標であるクレプトマニア(kleptomania)と相反する選好(英語版)や認識論的習慣(英語版)をもたらす可能性がある。 0.46
In this paper, we demonstrate that this kind of behaviour can be a consequence of reward-free preference learning that encourages self-evidencing and maintains an appropriate arbitration between exploration and preference satisfaction. 本稿では,このような行動が,自己認識を促す報酬のない嗜好学習の結果であり,探索と嗜好満足の適切な仲裁を維持できることを示す。 0.79
In brief, we will see that agents learn to explore or exploit, depending upon the predictability of environmental contingencies. 簡単に言えば、エージェントは環境状況の予測可能性に応じて、探索や利用を学ぶことになる。 0.60
Preference satisfaction subsumes homeostatic (extrinsic) motivations maintain some ’preferred’ behaviour [41] and resist effects of perturbations (external or otherwise). 嗜好満足度は、ホメオスタティックな(極端に)モチベーションを消費し、いくつかの'preferred'行動 [41]を保ち、摂動(外的または外的)の影響に抵抗する。
訳抜け防止モード: 嗜好満足度はホメオスタティックな(極端に)モチベーションを消費する [41] 摂動(外部またはその他)の効果に抵抗する。
0.62
Generally, these refer to base needs that can be satisfied, e g , going to sleep or eating food. 一般的にこれらは、例えば、睡眠や食事に行くなど、満足できる基本的ニーズを指す。 0.63
Conversely, exploration involves heterostatic (intrinsic) motivations that distract the agent from its homeostatic imperatives, e g , novelty-seeking behaviour. 逆に、探索には不均一(本質的な)モチベーションが伴い、エージェントが恒常的な衝動、例えば新規な探索行動から逸脱する。 0.50
Exploratory behaviours would include trying a new hobby or taking a different route to work. 探索的な行動には、新しい趣味を試すか、別の仕事のルートを取るかが含まれる。
訳抜け防止モード: 探索行動には 新しい趣味を試したり 別の仕事の道を選んだりします
0.72
This kind of exploration is distinct from random behaviour because it depends upon what the agent does not know. この種の探索は、エージェントが知らないことに依存するため、ランダムな行動とは異なる。 0.75
Interestingly, over time, exploration can become the primary mode of behaviour if exploration satisfies the agent’s (learnt) preferences when dealing with an uncertain environment. 興味深いことに、時間が経つにつれて、探索が不確実な環境に対処する際のエージェントの好みを満たす場合、探索が主要な行動モードになる可能性がある。 0.55
Our work is based on the notion that an adaptive agent learns the preferences that best reflect its environment. 我々の研究は、適応エージェントがその環境を最もよく反映する好みを学習するという考えに基づいている。 0.66
To this end, we present pepper; a preference learning mechanism that can accumulate preferences over states (or outcomes) using conjugate priors – given a model-based Bayesian agent. この目的のために、モデルに基づくベイズエージェントを前提として、共役前駆体を用いて状態(または結果)よりも好みを蓄積できる選好学習機構であるペッパーを提案する。 0.61
Specifically, we model a deep active inference agent [17, 67, 10, 66, 14], maximising the evidence lower bound (or minimising the free energy) during training, and optimising the expected free energy (or free energy of future trajectories) for planning [42, 38]. 具体的には, 深部能動推論剤 [17, 67, 10, 66, 14] をモデル化し, トレーニング中のエビデンスを最大化(あるいは自由エネルギーの最小化)し, 計画 [42, 38] に期待される自由エネルギー(または将来の軌跡の自由エネルギー)を最適化する。 0.85
This formulation was chosen deliberately to leverage the expected free energy (EFE) as a planning objective that captures the imperative to maximise: a)intrinsic value, namely information gain – from interactions with the environment – about latent states, and b) extrinsic value, namely, realising prior preferences over outcomes. この定式化は、期待される自由エネルギー(EFE)を、最大化の命令を捉える計画目的として、意図的に利用するために選ばれた:a)本質的な値、すなわち、環境との相互作用からの情報ゲイン、b)本質的な値、すなわち結果に対する事前優先を実現する。 0.69
The Bayesian formulation of active inference provides a natural way to introduce conjugate priors necessary for amortised learning of preferences over states (or outcomes) – as previously shown in a simplified setting for outcome preference learning[47]. アクティブ推論のベイズ的定式化は、前述したように、状態(または結果)に対する嗜好の償却学習に必要な共役先制を導入する自然な方法を提供する。
訳抜け防止モード: 活性推論のベイズ的定式化は、状態に対する好みの償却学習に必要な共役先行を導入する自然な方法を提供する。 あるいは結果 ) – 前述したように、結果優先学習の簡易な設定[47 ]。
0.80
Briefly, our preference learning comprises a two-step procedure which occurs after the (generative) model of the agent is optimised for the environment (i.e., training time – see Fig. 簡単に言えば、我々の選好学習はエージェントの(生成的な)モデルが環境(トレーニング時間)に最適化された後に生じる2段階の手順からなる。 0.80
1). The first step consists of short episodes of direct exchange with the environment, where a history of observations and representations are retained. 1). 最初のステップは、観察と表現の歴史を保持する環境と直接交換する短いエピソードで構成されている。
訳抜け防止モード: 1). 最初のステップは環境と直接交換する短いエピソードで構成される。 観察と表現の歴史が 保持されています
0.81
Once each episode finishes, the second step involves updating prior preferences based on the history using simple update rules (see Section 4). 各エピソードが終了すると、第2のステップでは、単純な更新ルールを使用して、履歴に基づいて事前の好みを更新する(セクション4参照)。 0.57
Importantly, this means that agent can learn (different) preferences that encourage adaptive behaviour at test. 重要なのは、エージェントがテストで適応的な振る舞いを促進する(異なる)好みを学習できるということです。 0.61
The key contributions of this work are: この研究の主な貢献は次のとおりである。 0.57
• We present a simple, and flexible, preference learning mechanism (pepper) to augment the EFE for learning preferences using deep learning. • 深層学習を用いた選好学習のためのEFEを強化するため, 単純で柔軟な選好学習機構(ペッパー)を提案する。 0.84
We formulate two distinct EFE objectives for learning prior preferences over states and outcomes, respectively. 我々は2つの異なるefe目標を定式化し、それぞれ状態と結果よりも優先する選好を学習する。 0.55
• Our approach is reward-free at train and test time. •我々のアプローチは、列車とテストの時間に無報酬です。 0.68
This is achieved by casting rewards as a random variable in our generative model; equivalent to any other observation. これは、生成モデルにおいて、報酬をランダムな変数としてキャストすることで達成される。
訳抜け防止モード: これは 我々の生成モデルにおけるランダムな変数として 報酬をキャストする 他の観察と同等です
0.87
• Adaptive behaviour is conceptualised as a trade-off between exploration and prefer- •適応行動は探索と優先のトレードオフとして概念化される 0.72
ence satisfaction. In what follows, we review the related literature. エンス満足。 以下、関連文献について概観する。 0.54
Next, we introduce the problem setting and pepper (the preference learning mechanism). 次に,問題設定とpepper(選好学習機構)を紹介する。 0.66
We then evaluate the different types of preferences learnt during test time, and how they engender an appropriate trade-off between exploration and preference satisfaction. そして、テスト中に学習した異なるタイプの選好を評価し、探索と選好満足の間の適切なトレードオフをどのように引き起こすかを評価する。 0.55
Finally, we discuss the potential implications of this work. 最後に,本研究の潜在的意義について論じる。 0.59
2 Related work Reinforcement learning (RL) is regarded as a suitable framework for building artificial agents. 2 関連作業強化学習(RL)は, 人工エージェント構築に適した枠組みであると考えられる。 0.87
However, by definition, it relies on a reward signal to reinforce agent behaviour [64]. しかし、定義上は、エージェントの振る舞いを強化するために報酬信号に依存する[64]。 0.67
In reality, agents do not operate in a problem-solving setting, where a “critic” is available 現実には、エージェントは「批判的」が利用できる問題解決環境では活動しない 0.70
2 2 0.85
英語(論文から抽出)日本語訳スコア
and can provide reward signals [5, 57, 58]. 報酬信号[5, 57, 58]を提供することができます 0.78
Without task-specific reward signal (also called extrinsic reward), the agent is driven by intrinsic motivations that promote exploration, play and curiosity [45, 56, 57]. タスク固有の報酬信号(extrinsic rewardとも呼ばれる)がなければ、エージェントは探索、遊び、好奇心を促進する本質的な動機によって駆動される [45, 56, 57]。
訳抜け防止モード: without task - 特定の報酬信号(extrinsic reward とも呼ばれる)。 エージェントは本質的な動機づけによって 探検,遊び,好奇心[45,56,57]を促進する.
0.77
Over the years, a variety of intrinsic motivation methods have been proposed, largely focusing on exploration, based on information gain [28, 62], prediction error [1, 43, 59], novelty search [37, 54], curiosity [48, 49], entropy [20, 36], or empowerment [34, 40]. 近年,情報ゲイン[28, 62], 予測誤差[1, 43, 59], ノベルティ探索[37, 54], 好奇心[48, 49], エントロピー[20, 36], エントロピー[34, 40]に基づいて, 探索に主に焦点をあてた本質的動機付け手法が提案されている。 0.73
Lately, through the popularisation of self-supervised learning (SSL) methods [21, 39], the deep RL community has turned its attention to self-supervised reinforcement learning. 近年, 自己教師型学習(SSL)手法の普及[21, 39]により, 深層学習コミュニティは自己教師型強化学習に注目が向けられている。 0.73
Auxiliary tasks or rewards [29] are used – in the absence of any extrinsic rewards during train time – to train intrinsically motivated agents for representation learning [68, 19, 33, 63] or generative model learning [55, 53, 3]. 補助的なタスクや報酬[29]は、列車時間中に外部報酬がなければ、表現学習 [68, 19, 33, 63] または生成モデル学習 [55, 53, 3] のための本質的な動機づけのあるエージェントを訓練するために使用される。 0.76
Recent work [30, 69] has focused on theoretical properties of reward-free Reinforcement Learning. 最近の研究[30, 69]は、報酬のない強化学習の理論的性質に焦点を当てている。 0.57
However, the ultimate goal of such methods is to yield easily transferable representations to be exploited upon introduction of a task. しかし、そのような方法の最終的な目標は、タスクの導入時に利用するために簡単に転送可能な表現を得ることである。 0.58
Our approach differs in several ways. 我々のアプローチはいくつかの点で異なる。 0.61
First, we formulate intrinsic motivation using the Expected Free Energy [17, 31] and focus on investigating the behaviour of intrinsically motivated agents. まず, 期待自由エネルギー[17, 31]を用いて本質的動機付けを定式化し, 本質的動機づけ剤の挙動調査に焦点をあてる。 0.75
Now exploration is simply an emergent behaviour of the planning objective and not a mechanism for improving future task performance. 現在、探索は計画目標の創発的な行動であり、将来のタスクパフォーマンスを改善するメカニズムではない。 0.72
Second, pepper can be used to learn preferences over both states and outcomes in a deep learning setting – extending previous formulations to high-dimensional spaces [47]. 第二に、pepperはディープラーニング環境で、状態と結果の両方について好みを学ぶのに使うことができる。
訳抜け防止モード: 第二に、ペッパーは深層学習環境で状態と結果の両方の好みを学ぶのに使える。 以前の定式化を高次元空間に拡張する[47 ]
0.70
Conceptually, open-ended learning [50, 60, 61], where agents are responsible for never-ending learning opportunities, is closest to our formulation. 概念的には,エージェントが無限の学習機会を担っているオープンエンド学習[50,60,61]が,私たちの定式化に最も近い。 0.70
However, pepper extends this scenario to show how agents can trade-off between actively looking for opportunities to learn but also enjoy moments of preference satisfaction. しかしながら、pepper氏はこのシナリオを拡張して、エージェントが積極的に学習する機会を探すことと、好みの満足の瞬間を楽しむことのトレードオフを示す。 0.55
3 Problem setting We consider a world that can be represented as a discrete-time Markov decision process (MDP), formally defined as a tuple of finite sets (S, Π, Ω,P,R), such that: s ∈ S is a particular latent state, o ∈ Ω is a particular image observation, r ∈ R is a particular reward observation, and P is a set of transition probabilities. 3 問題設定 我々は離散時間マルコフ決定過程 (mdp) として表現できる世界を考えるが、これは形式的には有限集合 (s, π, ω, p, r) のタプルとして定義され、s ∈ s は特定の潜在状態、o ∈ ω は特定の画像観察、r ∈ r は特定の報酬観測、p は遷移確率の集合として定義される。 0.77
Notice, we cast the reward function as another random variable – no different to an image observation. 注意すべき点は、報酬関数を別のランダム変数としてキャストすることです。 0.57
Further, π ∈ Π where π = {a1, a2, ..., aT} is a policy (i.e., action trajectory) and Π a finite set of all possible policies up to a given time horizon T ∈ N+ and T = {0, .., t, .., τ, T} a finite set which stands for discrete time; t the current time and τ some future time. さらに π ∈ π は、 π = {a1, a2, ..., at} がポリシー(すなわち作用軌道)であり、π は与えられた時間軸 t ∈ n+ と t = {0, ., t, ., τ, t} までのすべての可能なポリシーの有限集合であり、これは離散時間を表す有限集合である。
訳抜け防止モード: さらに π ∈ π である。 π = { a1, a2, ..., at } はポリシー(すなわちアクションの軌跡)である。 π は与えられた時間軸 t ∈ n+ までのすべての可能なポリシーの有限集合である そして t = { 0, ., t, . τ, t } 離散時間 ; t を現在の時間、τ を将来の時間とする有限集合。
0.80
In short, we do not assume an optimal state-action policy but consider sequential policy optimisation inherent in active inference. 要するに、我々は最適な状態行動方針を仮定せず、アクティブ推論に固有の逐次政策最適化を検討する。 0.70
Accordingly, the agent’s generative model is defined as a probability density, Pθ(o, r, s, π), parameterised by θ (Fig. したがって、エージェントの生成モデルは θ (fig) でパラメータ化された確率密度 pθ(o, r, s, π) として定義される。 0.90
1). The generative model is instantiated as a Recurrent State-Space Model (RSSM) [23, 22, 24]3 where a history of observations (o0, o1, .., ot) and actions (a0, a1, .., at) are mapped to a sequence of deterministic states ht. 1). 生成モデルは、繰り返し状態空間モデル(RSSM)[23, 22, 24]3としてインスタンス化され、観測履歴(o0, o1, .., ot)とアクション(a0, a1, at)が決定論的状態htのシーケンスにマッピングされる。 0.85
Using these, distributions over the latent states – both prior and posterior – can be attained. これらを用いることで、前と後の両方の潜伏状態の分布を達成できる。 0.77
Formally, this consists of the following: • GRU [12] based deterministic recurrent model, ht = fθ(h<t, s<t, π<t); • Latent state posterior, Qφ(st|ht, ot) ∼ Cat, and prior, P(s) ∼ Cat(D) • Transition model, Pθ(st|ht) ∼ Cat ; • Image predictor (or emission model), Qφ(ot|ht, st) ∼ Bernoulli ; • Reward model, Qφ(rt|ht, st), and prior, P(r) ∼ Cat(C); 形式的には、 • GRU [12] ベースの決定論的再帰モデル、ht = fθ(h<t, s<t, π<t); • 潜在状態後進、Qφ(st|ht, ot) > Cat、およびそれ以前の P(s) > Cat(D) • 遷移モデル、Pθ(st|ht) > Cat ; • 画像予測(または排出モデル)、Qφ(ot|ht, st) > Bernoulli ; • 逆モデル、Qφ(rt|ht, st) および前 P(r) > Cat(C) である。 0.77
where Qφ(·) denotes the approximate distribution, parameterised by φ. ここで Qφ(·) は φ によってパラメータ化された近似分布を表す。 0.66
3.1 Learning the generative model To learn the generative model the evidence lower bound (ELBO) of the likelihood p(o1:T , r1:T | π) [23] or equivalently, the variational free energy [16, 14, 47] is optimised: 3.1 生成モデルを学ぶ 生成モデルを学ぶ 可能性 p(o1:T , r1:T | π) [23] のエビデンス下界(ELBO)を学習するには、変分自由エネルギー [16, 14, 47] を最適化する。 0.81
3https://github.com/ danijar/dreamerv2 (MIT License) 3https://github.com/ danijar/dreamerv2 (MITライセンス) 0.51
3 3 0.85
英語(論文から抽出)日本語訳スコア
Figure 1: Model architecture and 2-step training procedure. 図1: モデルアーキテクチャと2段階のトレーニング手順。 0.85
Circles and squares denote random and deterministic variables respectively. 円と正方形はそれぞれランダム変数と決定変数を表す。 0.71
Coloured lines denote connections where learning is employed. 色付き線は、学習が採用される関係を表す。 0.57
Shaded circles represent outcomes that have already been observed by the agent. シェード円は、既にエージェントによって観測された結果を表す。 0.65
The first figure shows the generative model used during learning. 最初の図は、学習中に使用される生成モデルを示している。 0.64
The second panel is for Pepper (the preference learning phase) – comprising two steps in each episode: 1) interaction with the environment, & 2) accumulation of preferences once interaction ends. 第2のパネルは、Pepper(嗜好学習フェーズ)のためのもので、各エピソードにおいて、1)環境とのインタラクション、2)相互作用が終了すると好みの蓄積という2つのステップから構成される。 0.62
There is a bi-directional flow between the 2 steps: step 1 influences preference learning and step 2 in turn influences environment interaction in the next episode. ステップ1は嗜好学習に影響を与え、ステップ2は次のエピソードで環境相互作用に影響を及ぼす。
訳抜け防止モード: 2段階間の双方向の流れ : ステップ1は選好学習に影響を与える ステップ2は次のエピソードの環境相互作用に影響を与える。
0.88
L(θ) = TX t=1 L(θ) = TX t=1。 0.72
(cid:2)−EQφ [ln Pθ(ot | st, π) + ln Pθ(rt | st, π)] } | (cid:2)-EQφ [ln Pθ(ot | st, π) + ln Pθ(rt | st, π)] } | 0.99
{z reconstruction | } + EQφ [DKL(Qφ k Pθ(st | st−1, π)] {z 復興 | } + EQφ [DKL(Qφ k Pθ(st | st−1, π)] 0.79
{z dynamics {z dynamics 0.85
(cid:3) (1) (cid:3) (1) 0.82
(2) where, DKL denotes the Kullback–Leibler divergence. (2) ここで、DKLはクルバック・リーブラー発散を表す。 0.73
Practically, this entails using trajectories generated under a random policy. 実際には、ランダムなポリシーの下で生成される軌道を使用する。 0.55
See Appendix A for implementation details of the evidence lower bound and hyper-parameters. 下限とハイパーパラメータのエビデンスの実装詳細については、Appendix Aを参照してください。 0.58
4 Pepper: preference learning mechanism After learning the generative model, we substitute the planning objective with the expected free energy. 4 pepper: 選好学習機構 生成モデルを学んだ後、計画目標を期待された自由エネルギーに置き換える。
訳抜け防止モード: 4 pepper : 生成モデル学習後の選好学習機構 我々は計画の目的を期待された自由エネルギーに置き換える。
0.82
At time-step t and for a time horizon up to time T, the expected free energy (EFE) is defined as [17, 14]: 時間ステップtと時間Tまでの時間地平線では、期待自由エネルギー(EFE)を[17,14]と定義する。 0.70
TX E ˜Q TX E (複数形 Es) 0.53
(cid:2)log Qφ(sτ|π) − log ˜Pθ(oτ , sτ|π)(cid:3) , (cid:2)log Qφ(sτ|π) − log Pθ(oτ , sτ|π)(cid:3) 0.69
TX G(π) = G(π, τ) = TX G(π) = G(π, τ) = 0.85
τ=t τ=t ˜Q = Qφ(oτ , sτ , θ|π) = Q(θ|π)Q(sτ|, π)Qφ(oτ|sτ , π) and ˜Pθ(oτ , sτ|π) = where P(oτ)Q(sτ|oτ)P(θ|sτ , oτ , π). τ=t τ=t Q = Qφ(oτ , sτ , θ|π) = Q(θ|π) Q(sτ|, π)Qφ(oτ|sτ , π) および P(oτ)Q(sτ|oτ)P(θ|sτ , oτ , π) が成り立つ。 0.68
This is an appropriate planning objective because it: 1) is analogous to the expectation of the ELBO (Eq.1) under the predictive posterior Pθ(ot|st, π) and 2) can be decomposed into extrinsic and intrinsic value without any additional terms [13, 38]. 1) 予測的な後方 pθ(ot|st, π) の下での elbo (eq.1) の期待と類似しており、2) は追加項 [13, 38] なしで、外部的および内在的な値に分解することができる。
訳抜け防止モード: 1 ) は予測後 Pθ(ot|st, π ) の下での ELBO (Eq.1 ) の期待に類似しているため、これは適切な計画目標である。 および 2 ) は、[13, 38 ] の追加用語なしで外生的および内生的値に分解することができる。
0.76
Accordingly, in the absence of learnt preferences – or whilst learning them – intrinsic motivation contextualises agent’s interactions with the environment environment in a way that depends upon its posterior beliefs about latent environmental states [4, 45]. それゆえ、学習した選好(または学習中)がない場合、内在的な動機づけはエージェントと環境環境との相互作用を、潜在する環境状態(4,45]に対する後発の信念に依存する方法で、文脈づけする。 0.65
Actions are selected by sampling from distribution P(π) = arg max(−G(π)). 作用は分布 p(π) = arg max(−g(π)) からサンプリングすることで選択される。 0.80
To allow for preference learning over time, we augment this planning objective with conjugate priors i.e., pepper. 時間の経過とともに選好学習を可能にするため、この計画目標を共役優先、すなわちpepperで補強する。 0.60
4.1 Learning preferences using conjugate priors A natural way to learn preferences is to extend the agent’s generative model with conjugate priors over prior beliefs (i.e., hyper-priors) for each appropriate probability distributions, that are learnt over time [17, 47, 13]. 4.1 共役事前を用いた学習選好 嗜好を学習するための自然な方法は、時間とともに学習される各確率分布について、先行信念(すなわち、ハイパープライアー)よりも、エージェントの生成モデルを拡張することである [17, 47, 13]。 0.75
Generally, for closed-form updates any exponential family would be appropriate [44]. 一般に、クローズドフォーム更新では指数族は適切な[44]である。 0.59
Since our distributions of interest, latent state and rewards are Categorical, we used the Dirichlet distribution as the conjugate prior. 関心の分布、潜伏状態、報酬はカテゴリー的であるため、ディリクレ分布を先行共役として用いた。
訳抜け防止モード: 私たちの関心の分布、潜在状態、報酬はカテゴリー的です。 ジリクレ分布を共役前処理として用いた。
0.57
For the latent state, P(s) ∼ Cat(D), this is defined as: 潜在状態 P(s) > Cat(D) に対して、これは次のように定義される。 0.74
4 4 0.85
英語(論文から抽出)日本語訳スコア
G(π, τ) = − E ˜Q + E ˜Q + E ˜Q G(π, τ) = − E >Q + E >Q + E >Q 0.92
(cid:2) log P(r|C)(cid:3) (cid:2) log Q(sτ|π) − log P(sτ|oτ , π)(cid:3) (cid:2) log Q(θ|sτ , π) − log P(θ|sτ , oτ , π)(cid:3) . (cid:2) log P(r|C)(cid:3) (cid:2) log Q(sτ|π) − log P(sτ|oτ , π)(cid:3) (cid:3) log Q(θ|sτ , π) − log P(θ|sτ , oτ , π)(cid:3) 0.77
G(π, τ) = − E ˜Q + E ˜Q + E ˜Q G(π, τ) = − E >Q + E >Q + E >Q 0.92
(cid:2) log P(oτ|sτ , π)(cid:3) (cid:2) log Q(sτ|π) − log P(s|D)(cid:3) (cid:2) log Q(θ|sτ , π) − log P(θ|sτ , oτ , π)(cid:3) . (cid:2) log P(oτ|sτ , π)(cid:3) (cid:2) log Q(sτ|π) − log P(s|D)(cid:3) (cid:3) log Q(θ|sτ , π) − log P(θ|sτ , oτ , π)(cid:3) 0.77
(4a) (4b) (4c) (4a)(4b)(4c) 0.83
(5a) (5b) (5c) (5a)(5b)(5c) 0.83
P(Di|di) = Dir(di) ⇒ P(Di|di) = Dir(di) ? 0.82
EP (Di|di) シュEP(Di|di) 0.55
EP (Di|di) EP (Di|di) 0.84
(cid:3) = di (cid:2)Di ijP ij)(cid:3) = (cid:122)(di (cid:2)log(Di (cid:3) = di (cid:2)Di ijP ij)(cid:3) = (cid:122)(di (cid:2)log(Di) 0.84
di ij k kj ディ ij k kj 0.76
ij) − (cid:122)(P ij) − (cid:122)(P) 0.86
k di kj) (3) k ディ kj) (3) 0.77
where, (cid:122) is the digamma function, d ∼ R+ and same parameterisation holds for P(r) ∼ Cat(C). ここで (cid:122) はジガンマ関数、d は R+ であり、同じパラメータ化は P(r) は Cat(C) である。 0.75
The posteriors for the Dirichlet hyper–parameters are evaluated by updating the prior using the following rule di,j + α ∗ si,j where si,j are the observations for that particular category and α the learning rate. ディリクレ超パラメータの後方は、次の規則 di,j + α ∗ si,j を用いて先行値を更新することにより評価される。
訳抜け防止モード: ディリクレハイパー – パラメーターの後部は、次のルール di を使って事前を更新することで評価される。 j + α ∗ si, j ここで si, j はその特定のカテゴリの観測である αは学習率である。
0.66
These estimates can be treated as pseudo–counts, and the ensuing learning procedure is reminiscent of Hebbian plasticity [17, 46]. これらの推定値は擬似数として扱うことができ、その後の学習手順はヘビアン可塑性 [17, 46] を連想させる。 0.62
In effect, this allows the agent to accumulate contingencies and learn about what it prefers – either via outcomes or states. 事実上、エージェントは事態を蓄積し、それが何を好むか(結果または状態)を学ぶことができる。 0.50
4.1.1 Augmented expected free energy 4.1.1 追加の期待自由エネルギー 0.57
To incorporate preference over both states and reward outcomes, we use two distinct expected free energy decompositions. 両方の状態に対する選好と報奨結果を取り込むため、2つの異なる期待自由エネルギー分解を用いる。 0.74
The first one instantiates preference learning over reward outcomes, as presented below for a single time instance τ [52, 14]: 1つは、以下の例 τ [52, 14] で示すように、報酬の成果よりも選好学習をインスタンス化する。
訳抜け防止モード: 最初の1つは、報酬の成果よりも好み学習をインスタンス化する。 下記の1回の例 τ [ 52, 14 ]:
0.82
where, P(r|C) is the probability of a particular reward outcome given (learnt) prior preferences (C). ここで、p(r|c) は(平均)事前選好 (c) が与えられる特定の報奨結果の確率である。 0.75
The second decomposition incorporates preferences over latent states: 第2の分解は潜在状態に対する選好を組み込む。 0.51
where, P(s|D) is the probability of a particular state given (learnt) prior preferences (D). ここで、p(s|d) は(独立)事前選好 (d) が与えられた特定の状態の確率である。 0.70
These prior distributions are read as ‘preferences’ in active inference [47] – in the sense they are the outcomes the agent expects its plans to secure. これらの以前の分布は、アクティブな推論 [47] において ‘preferences’ として読まれる。
訳抜け防止モード: これらの先行分布は、アクティブな推論 [47 ] において ‘ preferences ’ と読まれる。 エージェントが計画の 確保を期待する結果だ
0.76
For both formulations, we drop the conditioning on policy when learning of preferences and the requisite probability is calculated using Thompson sampling. いずれの定式化においても,好みの学習時にポリシーの条件付けを下げ,トンプソンサンプリングを用いて必要な確率を算出する。 0.63
This entails sampling from the prior Dirichlet distribution and estimating the likelihood. これは、以前のディリクレ分布からサンプリングし、確率を推定する。 0.60
Additionally, two of the three terms that constitute the expected free energy cannot be easily computed as written in Eq 4 & Eq 5. さらに、期待自由エネルギーを構成する3つの項のうち2つは、eq 4 と eq 5 に書かれているように容易に計算できない。 0.75
To finesse their computation, we re-arrange these expressions and use deep ensembles [35] to render them expressions tractable. それらの計算を微調整するために、これらの式を再配列し、深いアンサンブル[35]を使って表現を抽出できる。 0.56
See Appendix A for implementation details of the expected free energy. 期待自由エネルギーの実装の詳細は、 appendix a を参照してください。 0.62
4.1.2 Pepper Pepper comprises a double loop during preference learning. 4.1.2ペッパー pepperは、選好学習中に二重ループを構成する。 0.51
The first loop is across time-steps when the agent interacts with the environment. 最初のループは、エージェントが環境と対話するときのタイムステップを越えている。 0.60
This loop stores information about what happened (including observations, rewards, posterior, prior, etc). このループは、何が起きたかの情報(観察、報酬、後部、前部など)を格納する。 0.68
The second loop, evolving at a slower timescale, is across episodes and entails preference learning. 2つ目のループは、より遅い時間スケールで進化し、エピソード間を行き来し、嗜好学習を伴う。 0.58
Specifically, once the interaction with the environment ends, the agent updates the prior Dirichlet distribution (over preferences) using the data gathered during the episode. 具体的には、環境とのインタラクションが終了すると、エージェントはエピソード中に収集したデータを使用して、事前のdirichletディストリビューションを(好みよりも)更新する。 0.54
In the subsequent time-steps the updated preferences are used to select the next action (via their influence on expected free energy). 続く時間ステップでは、更新された選好が次のアクション(期待された自由エネルギーへの影響)を選択するために使用される。 0.61
The data gathered during this episode are used to update preferences. このエピソードで収集されたデータは、好みを更新するために使用される。 0.51
In turn, these preferences are used to select actions during the next episode, and so on. 逆に、これらの好みは次のエピソードでアクションを選択するために使われます。 0.55
This demonstrates a bi-directional flow between the two loops: information from environment interactions influences preference learning and the learnt preferences influence environment interaction これは2つのループ間の双方向フローを実証する: 環境相互作用からの情報は嗜好学習と学習嗜好が環境相互作用に影響する 0.76
5 5 0.85
英語(論文から抽出)日本語訳スコア
in the subsequent episode. その後のエピソードで登場。 0.67
The pepper preference learning procedure is summarised in Algorithm.1. ペッパー選好学習手順はアルゴリズム1で要約される。 0.70
Algorithm 1: Pepper Input : ht := fθ(h<t, s<t, π<t) Recurrent model Qφ(st|ht, ot) Posterior model Qφ(st|ht) Prior model Pθ(ot|ht, st) Observation model Pθ(rt|ht, st) Reward model Initialise uniform Dirichlet prior over P(r) or P(s) learning rate α for each episode e do アルゴリズム1: Pepper Input : ht := fθ(h<t, s<t, π<t) Recurrent model Qφ(st|ht, ot) Posterior model Qφ(st|ht) Prior model Pθ(ot|ht, st) Observation model Pθ(rt|ht, st) Reward model Initialise uniform Dirichlet prior over P(r) or P(s) learning rate α for each episode e do 0.98
/* prior preference being learnt */ /*事前の好みが学習される*/ 0.70
reset environment and collect initial observations (o0 or r0) for each time step t do 環境をリセットし、各時間ステップtごとに初期観測(o0またはr0)を収集する 0.78
compute spo ∼ Qφ(st|ht, ot) or spr ∼ Qφ(st|ht) compute G (Eq.4 or Eq 5) using (learnt) priors, observed and predicted posteriors at ← arg max(−G(π)) execute at and receive o or r ot+1 ← o and rt+1 ← r ci,t ← ci,t−1 + α ∗ ri,t dij,t ← dij,t−1 + α ∗ sprij,t 計算 spo > Qφ(st|ht, ot) または spr > Qφ(st|ht) 計算 G (Eq.4 または Eq 5) を (リート) 先行値を用いて計算し、観測し、予測された後続点 > arg max(−G(π)) を o または r ot+1 で実行し、rt+1 > r ci,t ,t−1 + α ∗ ri,t dij,t > dij,t−1 + α ∗ sprij,t > dij,t > dij,t−1 + α ∗ sprij,t 0.71
/* Update rule for dir(d) */ /* dir(d) */の更新ルール 0.79
/* Update rule for dir(c) */ /* dir(c)*/の更新ルール 0.78
if reward preference learning then 報酬優先学習をすれば 0.58
else if state preference learning then さもなくば 状態選好学習は 0.67
5 Results Here, we present two sets of numerical experiments that underwrite the face validity of pepper in two and three-dimensional environments, respectively. 結果5 本稿では,2次元環境と3次元環境において,ペッパーの顔の妥当性を記述した2つの数値実験について述べる。 0.68
5.1 FrozenLake We used a variation of the OpenAI Gym [8]4 FrozenLake environment to: 1) evaluate different behaviours acquired (at test time) when either P(s) or P(r) was learnt, 2) qualify how preferences can evolve as a result of environmental volatility, and 3) quantify the trade-off between exploration and preference satisfaction. 5.1 frozenlake では,openai gym [8]4 frozenlake 環境のバリエーションを用いて,1) p(s) か p(r) のいずれかが学習された時に獲得した(テスト時に)異なる行動を評価し,2) 環境変動の結果,選好がどのように進化するかを確認し,3) 探索と選好満足の間のトレードオフを定量化する。 0.70
The agent in the original FrozenLake formulation is tasked with navigating a grid world comprised of frozen, hole and goal tiles, using 4 actions (left, right, down or up). オリジナルの frozenlake 定式化のエージェントは、4つのアクション(左、右、下、または上)を使用して、凍結、穴、ゴールタイルからなるグリッドワールドをナビゲートする。 0.64
The agent receives a reward of 10 upon reaching the goal and a penalty −0.25 upon moving to the hole. エージェントはゴールに達すると10の報酬を受け取り、ホールに移動すると-0.25のペナルティを受ける。 0.74
To test preference learning, we included a sub-goal tile and removed the reward signal (Fig.2A). 選好学習をテストするため,サブゴールタイルを挿入し,報酬信号(図2A)を除去した。 0.66
In other words, although the preference learning agent can differentiate between tile categories – given its generative model – it receives no extrinsic signal from the environment. 言い換えると、選好学習エージェントは、その生成モデルを考えると、タイルのカテゴリを区別することができるが、環境から余分な信号を受信しない。 0.62
Here, we simulated a volatile environment by switching the FrozenLake tile configuration every K steps and initialising the agent in a different location at the start of each episode. ここでは,Kステップ毎にFrozenLakeタイル構成を切り替え,各エピソード開始時にエージェントを異なる位置に初期化することにより,揮発性環境をシミュレートした。 0.81
This furnished an appropriate test-bed to assess how much volatility was necessary to induce exploratory behaviour and shifts in prior preference. これは、探索的行動や事前選好の変化を引き起こすのにどれだけのボラティリティが必要かを評価するための適切なテストベッドを提供した。
訳抜け防止モード: このことで適切なテストが実施されました - ベッド 予備選好の探索行動やシフトを引き起こすのに どれだけのボラティリティが必要かを評価するためです
0.52
5.2 TileWorld We extended the FrozenLake environment in the miniworld framework [11]5 to three dimensions to test the generalisation and scalability of preference learning, when operating in a 3D visual world (Fig.2C). 5.2 TileWorld 我々は,ミニワールドフレームワーク[11]5におけるFrozenLake環境を3次元に拡張し,3次元ビジュアルワールド(図2C)で動作する場合の嗜好学習の一般化とスケーラビリティを検証した。 0.81
In this task, the agent moves around in a small room with grey walls, frozen and goal tiles on the floor. この作業では、エージェントは灰色の壁のある小さな部屋を動き回り、床に凍って、ゴールタイルを置きます。 0.73
The agent spawns in a random location and receives pixel observations (32x32 pixels with RGB channels) and a scalar value (reward) containing some エージェントはランダムな場所で発生し、rgbチャネルを持つ32x32ピクセルのピクセル観測とスカラー値(reward)を受信する。 0.75
4https://github.com/ openai/gym/ (MIT license) 5https://github.com/ maximecb/gym-miniwor ld/ (Apache 2.0 License) 4https://github.com/ openai/gym/ (MITライセンス) 5https://github.com/ maximecb/gym-miniwor ld/ (Apache 2.0ライセンス) 0.46
6 6 0.85
英語(論文から抽出)日本語訳スコア
Figure 2: A: The graphics show examples of the different OpenAI Gym FrozenLake 16x16 environments used. 図2: A: グラフィックは、異なるOpenAI Gym FrozenLake 16x16環境の例を示している。 0.89
B: The line plots shows the marginal likelihood (y-axis), across 50 preference learning episodes (x-axis), for P(s) (i.e., states) and P(r) (i.e., reward) during test time. B: ラインプロットは、テスト期間中に50の選好学習エピソード(x軸)、P(s)(状態)、P(r)(報酬)の辺縁的な可能性(y軸)を示す。
訳抜け防止モード: B : 線プロットは辺の確率(y-軸)を示す。 50の選好学習エピソード(x軸)にまたがって P(s) (すなわち 状態 ) と P(r ) (すなわち、報奨 ) はテスト時間中です。
0.81
Here, the dark lines represent the mean (across 10 seeds), and shaded area the 95% confidence interval. ここでは、暗い線は平均(10種以上)を表し、日陰領域は95%の信頼区間を示す。 0.80
Different shades of green denote levels of environment volatility. 緑の色合いは環境変動のレベルを示す。 0.70
C: The graphics show a particular agent trajectory across the 3D− TileWorld environment – with a 10−step interval between each image D-E: Visualisation of the posterior latent states (estimated using Qφ(st|ht, ot)) during preference learning of (P(s) D and P(r) E) episodes. C: グラフィックは、(P(s) D と P(r) E) のエピソードの優先学習中に、(Qφ(st|ht, ot) を用いて推定される) 後続の潜伏状態の可視化を行う。
訳抜け防止モード: C : グラフィックは3D-TileWorld環境における特定のエージェントの軌跡を示し、各画像D - E間の10ステップ間隔を持つ。 : (P(s)Dの優先学習における後潜状態(Qφ(st|ht, ot ) を用いて推定される)の可視化 およびP(r ) E ) エピソード。
0.77
The states have been projected onto the first two principle components, and the black circles represent their k-mean centroid. これらの状態は最初の2つの原理成分に投影され、黒円はそのk平均中心を表す。 0.78
Here, the accompanying graphics present a representative agent trajectory (D with visited tiles highlighted) and reward profile (E) from that particular cluster. ここで、付随するグラフィックは、特定のクラスタから代表エージェント軌跡(訪問タイルハイライト付きD)と報酬プロファイル(E)を提示する。 0.74
information regarding the tile its currently on (1 for red tiles, 2 for green tiles). 現在のタイルに関する情報(赤タイルは1、緑タイルは2)。 0.58
Additionally, we introduce environmental volatility by changing the floor tiles to a random map and back to the original map every K steps. さらに,床タイルをランダムマップに変更し,kステップ毎に元のマップに戻すことにより,環境変動性を導入する。 0.75
Alternating between the original and a random map every K step is important to promote exploratory, novelty-seeking behaviour. 原点とランダム写像の間の交互なkステップは探索的、新奇な発見行動を促進するために重要である。 0.56
In the experiments that follow, we test agent behaviour in the two environments, with and without volatility. 続く実験では, 2つの環境におけるエージェントの挙動を, ボラティリティの有無で検証する。 0.79
The Dirichlet distribution for either prior preference distribution, P(s) or P(r), was initialised as 1 (i.e., uniform preferences). P(s) または P(r) のどちらかの事前選好分布に対するディリクレ分布は 1 (すなわち一様選好) として初期化された。 0.83
Trained network weights, optimised Eq 1 using ADAM [32], were frozen during these experiments. これらの実験では,ADAM[32]を用いてEq1を最適化したトレーニングネットワーク重みを凍結した。 0.63
Therefore, behavioural differences are a direct consequence of pepper that induces differences in estimation of the EFE. したがって、行動の違いは、EFEの推定の差異を引き起こすペッパーの直接的な結果である。 0.76
See Appendix B for architecture and training details for each environment. 各環境のアーキテクチャとトレーニングの詳細については、 appendix b を参照してください。 0.60
5.3 Learnt preferences State preferences Unsurprisingly, preference learning over latent states in the FrozenLake environment, revealed two types of behaviours: exploration and preference satisfaction (Fig.2D). 5.3 learnt preferences state preferences unsurablyly, preference learning over latent states in the frozenlake environment では,2つのタイプの行動が明らかにされている。 0.75
Here, preference satisfaction entailed restricted movement within a small section of the grid with gradual accumulation of prior preferences (see examples in the Appendix C.1). ここでは、嗜好の満足度は、事前選好の段階的な蓄積を伴う格子の小さな部分内での制限された動きを含む(Appendix C.1の例を参照)。 0.54
This speaks to the self-evidencing nature of pepper. これはトウガラシの自発性を表している。 0.46
That is as the pepper agent sees similar observations across episodes it grows increasingly confident (via increased precision over the prior preference) that these are the outcomes it prefers. これは、トウガラシがエピソード間で同様の観察をすると、(事前の選好よりも精度を高めて)これらが好む結果であると自信を増す。 0.66
Conversely, exploratory behaviour is evident in a volatile setting (Fig.2D), as gradual preference accumulation entails encoding of previously unseen states (see examples in Appendix C.1). 逆に、探索的な振る舞いは揮発的な設定(図2d)で明らかであり、段階的な嗜好の蓄積は、以前に見つからなかった状態のエンコーディングを伴っている(付録c.1の例を参照)。 0.47
Reward preferences Reward preference learning revealed subtle differences in preferences (Fig.2E), where certain agents preferred sub-goal tiles more than neutral tiles. リワード選好学習では選好の微妙な差異が示され(第2図)、一部のエージェントは中性タイルよりもサブゴールタイルを好んだ。
訳抜け防止モード: Reward preferences Reward preference learning revealed slightly difference in preferences (第2報) 特定のエージェントは中性タイルよりもサブ-ゴールタイルを好む。
0.71
All pepper 7 GoalHoleSub-goalFroz enRewardStatesEpisod eMarginal likelihoodABCState learning (volatile)State learning (static)DEReward learning (volatile)Reward learning (static) すべて唐辛子 7 GoalHoleSub-goalFroz enRewardStatesEpisod eMarginal chanceABCState Learning (volatile)State Learning (static)dereward Learning (volatile)Reward Learning (static) 0.71
英語(論文から抽出)日本語訳スコア
Figure 3: A: The violin plot presents the preference satisfaction and exploration trade-off measured using Hausdorff distance [7] at different levels of volatility in the environment. 図3:a: バイオリンプロットは、環境のボラティリティの異なるレベルでハウスドルフ距離[7]を用いて測定した好み満足度と探索トレードオフを示します。 0.74
The x-axis denotes environment volatility at constant map (0%), change in map every 40 steps (25%), 20 steps (50%), 10 steps (75%) and every step (100%). x軸は、一定の地図(0%)における環境のボラティリティを表し、40ステップ(25%)、20ステップ(50%)、10ステップ(75%)、全ステップ(100%)ごとに地図の変化を示す。 0.79
The y-axis denotes the Hausdorff distance. y軸はハウスドルフ距離を表す。 0.69
Here, red is for the agent optimising the standard expected free energy (EFE) Eq 2, blue for reward preference learning Eq 4 and green for state preference learning Eq.5. ここで、赤は標準自由エネルギー(EFE)Eq 2、青は報酬優先学習Eq 4、緑は状態優先学習Eq.5を最適化するエージェントである。 0.77
B: The line plot depicts the entropy over P(s) across varying levels of volatility in the environment. B: ラインプロットは、環境における様々なボラティリティのレベルにわたるP(s)上のエントロピーを描いている。 0.68
The x-axis represents the episodes, and the y-axis entropy (in natural units). x軸はエピソード、y軸エントロピー(自然単位)を表す。 0.60
Here, the dark lines represent the mean (across 10 seeds), and shaded area the 95% confidence interval. ここでは、暗い線は平均(10種以上)を表し、日陰領域は95%の信頼区間を示す。 0.80
The pink line is for 0%, blue for 25%, green for 50%, black for 75% and red for 100% volatility in the environment. ピンク色が0%、青が25%、緑が50%、黒が75%、赤が100%である。
訳抜け防止モード: ピンクラインは0%、ブルーラインは25%である。 緑は50%,黒は75%,赤は100%の揮発性を示した。
0.62
agents were able to immediately maximise their marginal likelihood6 over the reward (Fig.2B). エージェントは報酬に対する限界確率6を即座に最大化することができた(図2B)。 0.55
However, we did not observe clear differences in preference learning as the environment context shifted from non-volatile (i.e., map change) to increasingly volatile (map changed every time step). しかし,環境コンテキストが不揮発性(地図変化)から不揮発性(ステップ毎の地図変化)へと変化するにつれ,嗜好学習の明確な違いは観察されなかった。 0.83
We consider this to be consequence of the sparse categories over the reward distribution, and the large percentage of map being taken up by the neutral tiles. これは、報酬分布に関するスパースカテゴリの結果であり、地図の大多数が中立タイルによって取り上げられていると考えられる。 0.66
This meant preference accumulation was biased in favour of the neutral tile (see examples in Appendix C.1). これは、好みの蓄積が中立タイルに偏ったことを意味する(Appendix C.1の例を参照)。 0.53
5.4 Exploration and preference satisfaction trade-off We evaluated the exploration and preference satisfaction trade-off using Hausdorff distance (Fig.3) [7]. 5.4 探索と選好満足度トレードオフ ハウスドルフ距離を用いて探索と選好満足度トレードオフを評価した(第7図)。
訳抜け防止モード: 5.4 探索と嗜好満足貿易-オフ 探索と嗜好満足貿易の評価-オフ Hausdorff 距離 (図3 ) [ 7 ]
0.75
This is an appropriate metric, which calculates the maximum distance of the agents position in a particular trajectory to the nearest position taken in another trajectory. これは適切な計量であり、ある軌道におけるエージェントの位置から他の軌道で取られた最も近い位置までの最大距離を計算する。 0.73
Accordingly, a high Hausdorff distance denotes increased exploration, since trajectories observed across episodes differ from one other. したがって、高いハウスドルフ距離は、エピソード間で観察される軌道が互いに異なるため、探検の増加を意味する。 0.61
Whereas, a low distance entails prior preference satisfaction as agents repeat trajectories across episodes. 一方、低距離では、エージェントがエピソードをまたぐ軌道を繰り返すため、優先的な満足度が要求される。 0.45
Using this metric, a u-shaped association, between volatility in the environment and preference satisfaction, is observed for preference learning over the states. この測定値を用いて、環境のボラティリティと選好満足度の間のu型関係が、州における選好学習において観察される。 0.59
Here, 50% volatility in the environment, shifts the pepper agents behaviour from satisfying preferences to becoming exploratory, when faced with an uncertain environment (and inability to predict the future). ここでは、環境の50%のボラティリティが、不確実な環境(そして将来を予測することができない)に直面した場合、ペッパーエージェントの行動が、好みを満たすものから探索的になるものへとシフトする。
訳抜け防止モード: ここでは、環境の50パーセントのボラティリティが、ペッパー剤の挙動を嗜好を満たすものから探索的になるものへとシフトさせる。 不確実な環境(未来を予測できない)に直面したとき
0.60
Agents in this setting (with the highest Hausdorff distance) tend to pursue long paths from the initial location. この設定のエージェント(ハウスドルフ距離が最も高い)は、初期位置から長い経路を辿る傾向がある。 0.76
(Fig.2D). Interestingly, at 100% environmental volatility, the pepper agents behaviour shifts back to satisfying its preferences. (図2d) 興味深いことに、100%の環境変動性で、pepperエージェントの振る舞いは、その好みを満足するようになる。 0.65
These agents learn bi-modal preferences over the latent states. これらのエージェントは潜在状態のバイモーダル選好を学ぶ。 0.50
Irregardless of how the map changes they move directly to either location given the initial position (see trajectories in Appendix C.2). 地図がどう変わるかはさておき、最初の位置から直接どちらの場所に移動する(付録 c.2 の軌跡を参照)。 0.71
This ability to disregard random, noisy infor- ランダムで騒々しい音を無視するこの能力- 0.78
6Marginal likelihood is simply the likelihood function of the parameter of interest (here state or 6Marginal chanceは、単に利子パラメータ(状態または状態)の確率関数である。 0.71
reward) where some parameter variables have been marginalised out. 報酬) いくつかのパラメータ変数が除外された場所。 0.65
8 Pref. satisfy & explore trade-offEnvironment volatility (%)EpisodeEntropyABE FEReward learningState learningEnv. 8 Pref 環境のボラティリティ(%)EpisodeEntropyABE FEReward LearningState LearningEnv。 0.62
volatility (%)Random volatility (複数形 volatilitys) 0.77
英語(論文から抽出)日本語訳スコア
Figure 4: A: The bar chart plots the percentage of time the agents spent observing the 3 colours in the TileWorld. 図4: A: バーチャートは、TileWorldの3色の観察に費やした時間の割合をプロットします。 0.72
The x-axis presents the colours: red (floor tile), green (floor tile) and grey (wall colour), and y-axis the percentage of observations calculated using the 32x32x3 pixel image the agent received at each time step. x軸は、赤(フロアタイル)、緑(フロアタイル)、灰色(ウォールカラー)、y軸は、エージェントが各タイムステップで受信した32x32x3ピクセル画像を用いて計算された観察率である。 0.73
Red is for the agent optimising the standard expected free energy (EFE) Eq 2, blue for reward preference learning Eq 4 and green for state preference learning Eq 5. 赤は、標準の期待自由エネルギー(efe)eq2、青は報酬選好学習eq4、緑は状態選好学習eq5を最適化するエージェントである。 0.76
B: Sample trajectories for a single agent are presented for agents acquiring a preference for observing grey walls during state preference learning. B: 状態選好学習中に灰色の壁を観察する嗜好を得るエージェントに対して, 単一エージェントのサンプルトラジェクトリを提示する。 0.81
Here, an orange circle denotes starting position, a blue triangle represents the agents location until the final position, and a green cross is the final position. ここで、オレンジ色の円は開始位置を表し、青い三角形は最終位置までエージェントの位置を表し、緑の十字は最終位置を表す。 0.85
C: The line plot depicts the entropy over P(s) (in orange) and P(r) (in blue) across varying levels of volatility in the environment. c: ラインプロットは、p(s)(オレンジ)とp(r)(青)のエントロピーを、環境の様々なボラティリティのレベルにわたって描いている。 0.67
The x-axis represents the episodes, and the y-axis entropy (in natural units). x軸はエピソード、y軸エントロピー(自然単位)を表す。 0.60
Here, the dark lines represent the mean (across 10 seeds), and shaded area the 95% confidence interval. ここでは、暗い線は平均(10種以上)を表し、日陰領域は95%の信頼区間を示す。 0.80
mation with continuous map changes (analogous to the noisy-TV setting introduced in [9]) highlights a motivation beyond random exploration under state preference learning. 連続的なマップ変更([9]で導入された騒がしいtv設定に類似)を伴うmationは、状態選好学習下でランダムに探索する以上の動機を浮き彫りにしている。 0.60
For reward learning, exploration is also instantiated with increased volatility in the environment. 報酬学習のためには、環境のボラティリティの増加による探索もインスタンス化される。 0.60
Yet, complete volatility does not trigger a definitive shift back to preference satisfaction. しかし、完全なボラティリティは、選好満足への決定的なシフトを起こさない。 0.52
Additionally, the expected free energy agent, without preference learning capacity, also exhibits a shift in behaviour as the environment becomes volatile. さらに、予測自由エネルギー剤は、嗜好学習能力のない状態で、環境が揮発するにつれて行動の変化を示す。 0.66
The exploratory behaviour here is driven exclusively by an imperative to resolve state uncertainty, (Eq.4b): i.e., the mutual information between the agent’s beliefs about its latent state representation of the world, before and after making a new observation. ここでの探索行動は、状態の不確実性を解決するための命令によってのみ駆動される(eq.4b)。すなわち、新しい観測を行う前後において、エージェントの潜在状態表現に関する信念間の相互情報である。
訳抜け防止モード: ここでの探索行動は、状態の不確実性を解決するための命令によってのみ駆動される。 (Eq.4b) : エージェントの世界の潜在状態表現に関する信念間の相互情報 新しい観察をする前と後
0.82
5.5 Preference learning in the volatile TileWorld Preference learning agents evinced a strong preference for looking at grey walls in the volatile TileWorld environment (Fig.4A). 5.5 揮発性タイルワールド嗜好学習エージェントにおける嗜好学習は,揮発性タイルワールド環境(図4a)の灰色の壁を見ることを好む傾向が強かった。 0.64
This was consistently observed for both preference learning over latent states and rewards. これは潜在状態に対する選好学習と報酬の両方において一貫して観察された。 0.51
Importantly, when spawned in a location right next to the wall, these agents were happy to satisfy their preferences and not move (Fig.4B). 重要なことに、壁のすぐ隣の場所で産卵すると、これらのエージェントは好みを満足させ、動かない(図4B)。 0.63
This is driven by three factors: fast preference accumulation over grey walls, a small number of state configurations and a generative model that is able to appropriately predict future trajectories (see example reconstructions and imagined roll-outs in the Appendix B.2). これは次の3つの要因によって駆動される: 灰色の壁上の高速な選好蓄積、少数の状態構成、将来の軌跡を適切に予測できる生成モデル(Appendix B.2)の再構成やロールアウトの例を参照)。 0.79
However, volatility in the environment does influence the encoding of prior preferences – as evident from the observed state entropy fluctuations across the episodes (Fig.4). しかし、環境のボラティリティは、観察された状態のエントロピー変動から明らかなように、事前の嗜好の符号化に影響を与える(第4図)。 0.67
6 Concluding remarks Summary: Pepper – the reward-free preference learning mechanism presented – provides a simple way to influence agent behaviour. 6 結論付け まとめ: Pepper – 報酬なしの選好学習メカニズム – はエージェントの振る舞いに影響を与える簡単な方法を提供する。 0.66
Although, unlike the RL formulation, we cast what is preferred to the agent instead of the environment ’designer’. しかし、RLの定式化とは異なり、環境"designer"の代わりにエージェントが好むものをキャストする。 0.62
That is, the agent is つまり、エージェントは、 0.60
9 Preference for grey wallsABT=0T=7T=15C 9 灰色壁ABT=0T=7T=15C 0.60
英語(論文から抽出)日本語訳スコア
responsible for interacting with the environment and over time developing preferences that it acts to satisfy without an extrinsic signal. 環境との相互作用に責任を持ち、時間とともに、外部信号なしでは満足できるという選好を発達させる。 0.57
Our experiments revealed that rich category spaces are necessary for learning preferences that can establish distinct behavioural strategies – specifically, within a volatile setting. 実験の結果、豊かなカテゴリー空間は、独特な行動戦略(特に揮発性設定内で)を確立できる学習嗜好に必要であることが判明した。 0.61
Thus, future experiments looking to leverage pepper should provide a suitable category space to learn over. したがって、ペッパーを活用した将来の実験は、学ぶのに適したカテゴリ空間を提供する必要がある。 0.59
Conjugate priors and Hebbian plasticity: We employed a simple learning strategy for accruing preferences, using conjugate priors. 共役前駆体とヘビアン可塑性: 共役前駆体を用いて嗜好を得るための単純な学習戦略を採用した。 0.54
This type of learning usually calls on associative or Hebbian plasticity [25], where synaptic efficacy is reinforced by the simultaneous firing of pre-and post-synaptic neurons. この種の学習は通常、結合性またはヘビアン可塑性[25]と呼ばれ、シナプス効果はシナプス前ニューロンとシナプス後ニューロンの同時発射によって強化される。 0.60
For example, as more neutral tiles are observed, more evidence is accumulated in the synaptic connection to support the hypothesis that neutral tiles are preferentially observed. 例えば、より多くの中性タイルが観察されるにつれて、シナプス接続により多くの証拠が蓄積され、中性タイルが優先的に観察されるという仮説を支持する。 0.56
Implicitly, pepper rests upon experience-dependent plasticity, i.e., strengthening of synaptic connections during inference. 暗黙的に、ペッパーは経験に依存した可塑性、すなわち推論中のシナプス接続の強化にかかっている。 0.46
These updates can have different times scales, and experiential levels (please see Appendix D). これらのアップデートは、異なる時間スケールと経験レベルを持つことができる(Appendix Dを参照)。 0.75
Additionally, our learning process is driven by synaptic plasticity that allows certain random variables (s, r) to expand in light of new experiences [18]. さらに、我々の学習プロセスはシナプス可塑性によって駆動され、特定の確率変数(s, r)が新しい経験に照らして拡大できる [18]。 0.78
They are only updated after an exchange with the environment. 環境との交換後にのみ更新される。 0.66
This separation of ’experiencing’ the world, and then ’updating’ model parameters is reminiscent of sleep; in which synaptic homeostasis resets model parameterisation, by encoding new synapses or removing redundant ones [26, 65, 27]. これは、新しいシナプスをエンコードしたり、冗長なパラメータ(26,65,27]を取り除いたりすることで、シナプスのホメオスタシスがモデルのパラメータ化をリセットする。
訳抜け防止モード: この「経験」と「世界」の分離 モデルパラメータの更新 睡眠を思い出させる; シナプス性ホメオスタシスはモデルのパラメータ化をリセットする。 新しいシナプスをエンコードしたり、冗長なものを削除する[26,65,27]。
0.72
Removal of redundant model parameters is evaluated in experiments presented in Appendix D, where removal of accumulated Dirichlet parameters reveals consistently exploratory agents. 余剰モデルパラメータの除去はAppendix Dで示された実験で評価され、蓄積したディリクレパラメータの除去は一貫して探索エージェントを明らかにする。 0.71
Limitations: Notably, having a reward-free formulation is both an advantage and limitation of our approach. 制限: 特に報酬のない定式化は、私たちのアプローチの利点と限界です。 0.72
By not specifying an extrinsic reward function we forego control over the agent’s behaviour. 外部の報酬関数を指定しないことで、エージェントの振る舞いを制御できます。 0.64
In other words, by removing the ability to manipulate agent preferences regarding what is considered rewarding leads to the removal of the only clear communication channel that can be used by a designer to control agent behaviour and/or define task goals. 言い換えれば、報酬と見なされるもののエージェントの選好を操作できる能力を取り除くことで、デザイナーがエージェントの振る舞いを制御したり、タスク目標を定義したりするために使用できる唯一の明確なコミュニケーションチャネルが削除される。
訳抜け防止モード: 言い換えれば 報酬と考えられるものに関するエージェントの好みを操作する能力の排除 唯一の明確なコミュニケーションチャネルを 取り除くことにつながります 設計者はエージェントの振る舞いを制御したり、タスクの目標を定義したりすることができる。
0.81
Therefore, it would not be appropriate to use pepper in a setting where control of the agent’s behaviour is required e g , for autonomous vehicles. したがって、例えば自動運転車にエージェントの行動を制御する必要がある環境では、pepperを使うのは適切ではない。 0.69
And, if it were, precise preferences would have to be established under supervision. そしてもしそうなら、監督の下で正確な好みを確立する必要があるだろう。 0.57
Lastly, pepper is contingent upon having a suitable Bayesian generative model that has all the necessary components for evaluating the EFE. 最後に、ペッパーは、efeを評価するのに必要な全ての要素を持つ適切なベイズ生成モデルを持つ。
訳抜け防止モード: 最後に、トウガラシは寄生する EFEを評価するのに必要な全ての要素を持つ適切なベイズ生成モデルを持つ。
0.71
Without this, pepper may not work or the accumulated preferences might be misaligned with the observations. これがないと、pepperは機能しないかもしれないし、蓄積された好みは観測結果とミスアライメントされるかもしれない。
訳抜け防止モード: これなしではペッパーは効かないかもしれない あるいは 蓄積された好みが 観測と一致しないかもしれません
0.52
That is an inability to optimise the marginal likelihood over the random variables of interest. これは、関心のランダム変数に対する限界確率を最適化することができない。 0.66
Therefore, great care should be placed to ensure that an appropriate model has been learnt (see Appendix B.2 for implementation details). したがって、適切なモデルが学習されたことを確実にするための注意が必要である(実装の詳細はAppendix B.2を参照)。 0.69
Acknowledgements NS acknowledges funding from the Medical Research Council, UK (MR/S502522/1). NSは英国医学研究評議会(MR/S502522/1)からの資金提供を認めている。 0.59
PT is supported by the UK EPSRC CDT in Autonomous Intelligent Machines and Systems (grant reference EP/L015897/1). PTは、イギリスのEPSRC CDTによって、Autonomous Intelligent Machines and Systemsでサポートされている(参照:EP/L015897/1)。
訳抜け防止モード: PTは英国のEPSRC CDTが自律知能マシンでサポートしている and Systems ( grant reference EP / L015897/1 )。
0.72
KJF is funded by the Wellcome Trust (Ref: 203147/Z/16/Z and 205103/Z/16/Z). KJFはウェルカム・トラスト(203147/Z/16/Z、205103/Z/16/Z)が出資している。 0.48
References [1] Joshua Achiam and S. Sastry. 参照 [1] joshua achiam と s. sastry。 0.70
Surprise-based intrinsic motivation for deep reinforcement 深い補強のための驚きに基づく本質的動機づけ 0.49
learning. ArXiv, abs/1703.01732, 2017. 学ぶこと。 ArXiv, abs/1703.01732, 2017 0.71
[2] W Ross Ashby. ロス・アシュビー(Ross Ashby)。 0.68
An introduction to cybernetics. サイバーネティクス入門。 0.29
Chapman & Hall Ltd, 1961. チャップマン・アンド・ホール 1961年。 0.64
[3] Philip Ball, Jack Parker-Holder, Aldo Pacchiano, Krzysztof Choromanski, and Stephen Roberts. Philip Ball、Jack Parker-Holder、Aldo Pacchiano、Krzysztof Choromanski、Stephen Roberts。 0.61
Ready policy one: World building through active learning. ready policy one: アクティブラーニングによる世界構築。 0.79
In International Conference on Machine Learning, pages 591–601. 国際機械学習会議において、591-601頁。 0.79
PMLR, 2020. PMLR、2020年。 0.88
[4] Andrew G Barto. アンドリュー・G・バルト(Andrew G Barto)。 0.55
Intrinsic motivation and reinforcement learning. 固有のモチベーションと強化学習。 0.69
In Intrinsically motivated learning in natural and artificial systems, pages 17–47. 本質的には 自然と人工のシステムの学習を動機付け、17-47頁。 0.53
Springer, 2013. [5] Andrew G Barto, Satinder Singh, and Nuttapong Chentanez. 2013年春。 5]Andrew G Barto, Satinder Singh, Nuttapong Chentanez 0.52
Intrinsically motivated learning of hierarchical collections of skills. 階層的なスキルの収集を本質的に動機づけた学習。 0.55
In Proceedings of the 3rd International Conference on Development and Learning, pages 112–19. 第3回国際開発・学習会議紀要112-19頁。 0.57
Piscataway, NJ, 2004. piscataway, nj, 2004年。 0.65
10 10 0.85
英語(論文から抽出)日本語訳スコア
[6] Daniel E Berlyne. 6]daniel e berlyne。 0.58
Conflict, arousal, and curiosity. 対立、興奮、好奇心。 0.60
1960. [7] Henry Blumberg. 1960. ヘンリー・ブルンベルク(Henry Blumberg)。 0.74
Hausdorff’s grundzüge der mengenlehre. ヘースドルフの『マンゲンレア』に登場。 0.47
Bulletin of the American american (複数形 americans) 0.53
Mathematical Society, 27(3):116–129, 1920. 数学協会, 27(3):116-129, 1920 0.79
[8] Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, and Wojciech Zaremba. Greg Brockman, Vicki Cheung, Ludwig Pettersson, Jonas Schneider, John Schulman, Jie Tang, Wojciech Zaremba。 0.67
Openai gym. arXiv preprint arXiv:1606.01540, 2016. オープンアイジム。 arXiv preprint arXiv:1606.01540, 2016 0.67
[9] Yuri Burda, Harrison Edwards, Amos Storkey, and Oleg Klimov. 9]Yuri Burda氏、Harrison Edwards氏、Amos Storkey氏、Oleg Klimov氏。 0.76
Exploration by random network distillation. ランダムによる探索 ネットワーク蒸留 0.64
arXiv preprint arXiv:1810.12894, 2018. arXiv preprint arXiv:1810.12894, 2018 0.80
[10] Ozan Çatal, Tim Verbelen, Johannes Nauta, Cedric De Boom, and Bart Dhoedt. 10] ozan çatal、tim verbelen、johannes nauta、cedric de boom、bart dhoedt。 0.46
Learning perception and planning with deep active inference. 深い活動的推論による知覚と計画の学習。 0.73
In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 3952–3956. ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)、3952-3956頁。 0.87
IEEE, 2020. IEEE、2020年。 0.90
[11] Maxime Chevalier-Boisvert. 11] Maxime Chevalier-Boisvert 0.78
gym-miniworld environment for openai gym. openai gym (複数形 openai gyms) 0.61
https: //github.com/maximec b/gym-miniworld, 2018. https: github.com/maximecb/ gym-miniworld、2018年。 0.59
[12] Kyunghyun Cho, Bart Van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio. [12]Kunghyun Cho, Bart Van Merriënboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, Yoshua Bengio。 0.76
Learning phrase representations using rnn encoder-decoder for statistical machine translation. 統計的機械翻訳のためのrnnエンコーダデコーダを用いたフレーズ表現の学習 0.62
arXiv preprint arXiv:1406.1078, 2014. arXiv preprint arXiv:1406.1078, 2014 0.80
[13] Lancelot Da Costa, Thomas Parr, Noor Sajid, Sebastijan Veselic, Victorita Neacsu, and Karl Friston. Lancelot Da Costa氏、Thomas Parr氏、Noor Sajid氏、Sebastijan Veselic氏、Victorita Neacsu氏、Karl Friston氏。 0.72
Active inference on discrete state-spaces: a synthesis. 離散状態空間上のアクティブ推論:合成。 0.72
Journal of Mathematical Psychology, 99:102447, 2020. Journal of Mathematical Psychology, 99:102447, 2020 0.88
[14] Zafeirios Fountas, Noor Sajid, Pedro AM Mediano, and Karl Friston. Zafeirios Fountas氏、Noor Sajid氏、Pedro AM Mediano氏、Karl Friston氏。 0.63
Deep active inference agents using monte-carlo methods. 深部活動 モンテカルロ法による推論エージェント。 0.58
arXiv preprint arXiv:2006.04176, 2020. arXiv preprint arXiv:2006.04176, 2020 0.80
[15] Karl Friston. カール・フリーストン(Karl Friston)。 0.56
Life as we know it. 私たちが知っている人生。 0.78
Journal of the Royal Society Interface, 10(86):20130475, Journal of the Royal Society Interface, 10(86):20130475, 0.91
2013. [16] Karl J Friston. 2013. カール・J・フリーストン(Karl J Friston)。 0.67
The free-energy principle: A unified brain theory? 自由エネルギー原理:脳の統一理論? 0.72
Nature Reviews Neuroscience, 11(2):127–138, 2010. 自然観 神経科学 11(2):127–138, 2010 0.64
[17] Karl J Friston, Thomas FitzGerald, Francesco Rigoli, Philipp Schwartenbeck, and Giovanni Pezzulo. 17]カール・j・フリストン、トーマス・フィッツジェラルド、フランチェスコ・リゴリ、フィリップ・シュワルテンベック、ジョヴァンニ・ペズーロ 0.52
Active inference: A process theory. アクティブ推論: プロセス理論。 0.61
Neural Computation, 29(1):1–49, 2017. Neural Computation, 29(1):1-49, 2017 0.92
[18] Min Fu and Yi Zuo. [18]ミン・フー、イ・ズオ。 0.49
Experience-dependent structural plasticity in the cortex. 皮質における経験依存的構造可塑性 0.70
Trends in neurosciences, 34(4):177–187, 2011. 動向 神経科学では、34(4):177–187, 2011。 0.52
[19] Zhaohan Daniel Guo, M. G. Azar, Bilal Piot, B. [19]Zhaohan Daniel Guo, M. G. Azar, Bilal Piot, B. 0.92
A. Pires, Tobias Pohlen, and R. Munos. A. Pires、Tobias Pohlen、R. Munos。 0.74
Neural predictive belief representations. 神経予測的信念表現。 0.71
ArXiv, abs/1811.06407, 2018. ArXiv, abs/1811.06407, 2018。 0.67
[20] Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, and Sergey Levine. Tuomas Haarnoja氏、Aurick Zhou氏、Pieter Abbeel氏、Sergey Levine氏。 0.56
Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor (英語) 0.69
In ICML, 2018. 2018年、ICML入社。 0.74
[21] Raia Hadsell, Sumit Chopra, and Yann LeCun. [21]Raia Hadsell、Sumt Chopra、Yann LeCun。 0.59
Dimensionality reduction by learning an invariant mapping. 不変写像の学習による次元性低減 0.62
In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06), volume 2, pages 1735–1742. 2006年、ieee computer society conference on computer vision and pattern recognition (cvpr’06), volume 2, pages 1735–1742。 0.80
IEEE, 2006. 2006年、IEEE。 0.68
[22] Danijar Hafner, Timothy Lillicrap, Jimmy Ba, and Mohammad Norouzi. Danijar Hafner氏、Timothy Lillicrap氏、Jimmy Ba氏、Mohammad Norouzi氏。 0.63
Dream to control: Learning behaviors by latent imagination. dream to control: 潜在想像力による学習行動。 0.83
arXiv preprint arXiv:1912.01603, 2019. arXiv preprint arXiv:1912.01603, 2019 0.81
[23] Danijar Hafner, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak In [23]Danijar Hafner,Timothy Lillicrap,Ian Fischer,Ruben Villegas,David Ha,Honglak In 0.77
Lee, and James Davidson. リーとジェームズ・デイヴィッドソン。 0.71
Learning latent dynamics for planning from pixels. ピクセルから計画のための潜在ダイナミクスを学ぶ。 0.67
International Conference on Machine Learning, pages 2555–2565. 国際機械学習会議、2555-2565頁。 0.74
PMLR, 2019. 2019年、PMLR。 0.72
[24] Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, and Jimmy Ba. [24]Danijar Hafner、Timothy Lillicrap、Mohammad Norouzi、Jimmy Ba。 0.69
Mastering atari with discrete world models. マスタリング 別世界モデルを持つアタリ。 0.59
arXiv preprint arXiv:2010.02193, 2020. arXiv preprint arXiv:2010.02193, 2020 0.80
11 11 0.85
英語(論文から抽出)日本語訳スコア
[25] Donald Olding Hebb. ドナルド・オルドリング・ヘッブ(Donald Olding Hebb) 0.52
The organization of behavior; a neuropsycholocigal theory. 行動の組織; 神経心理学的理論。 0.74
A Wiley Book in Clinical Psychology, 62:78, 1949. A Wiley Book in Clinical Psychology, 62:78, 1949 0.87
[26] Geoffrey E Hinton, Peter Dayan, Brendan J Frey, and Radford M Neal. [26]Geoffrey E Hinton、Peter Dayan、Brendan J Frey、Radford M Neal。 0.69
The" wake-sleep" The " wake-sleeep" 0.68
algorithm for unsupervised neural networks. 教師なしニューラルネットワークのアルゴリズムです 0.68
Science, 268(5214):1158–1161, 1995. 268(5214):1158-1161, 1995年。 0.68
[27] J Allan Hobson and Karl J Friston. J Allan Hobson氏とKarl J Friston氏。 0.63
Waking and dreaming consciousness: neurobiological 覚醒と夢の意識:神経生物学 0.72
and functional considerations. Progress in neurobiology, 98(1):82–98, 2012. 機能的考慮です 神経生物学の進歩 98(1):82–98, 2012 0.69
[28] Rein Houthooft, Xi Chen, Yan Duan, John Schulman, Filip De Turck, and Pieter Abbeel. Rein Houthooft氏、Xi Chen氏、Yan Duan氏、John Schulman氏、Filip De Turck氏、Pieter Abbeel氏。 0.63
Vime: Variational information maximizing exploration. Vime: 探索を最大化する変動情報。 0.70
In NIPS, 2016. 2016年、NIPS。 0.76
[29] Max Jaderberg, Volodymyr Mnih, Wojciech Marian Czarnecki, Tom Schaul, Joel Z Leibo, David Silver, and Koray Kavukcuoglu. Max Jaderberg, Volodymyr Mnih, Wojciech Marian Czarnecki, Tom Schaul, Joel Z Leibo, David Silver, Koray Kavukcuoglu. [29] Max Jaderberg, Volodymyr Mnih, Wojciech Marian Czarnecki, Tom Schaul, Joel Z Leibo, Koray Kavukcuoglu.
訳抜け防止モード: [29 ]Max Jaderberg, Volodymyr Mnih, Wojciech Marian Czarnecki, Tom Schaul氏、Joel Z Leibo氏、David Silver氏、Koray Kavukcuoglu氏。
0.84
Reinforcement learning with unsupervised auxiliary tasks. 教師なし補助課題による強化学習 0.65
arXiv preprint arXiv:1611.05397, 2016. arXiv preprint arXiv:1611.05397, 2016 0.80
[30] Chi Jin, Akshay Krishnamurthy, Max Simchowitz, and Tiancheng Yu. [30]智仁、Akshay Krishnamurthy、Max Simchowitz、Tiancheng Yu。 0.62
Reward-free exploration for reinforcement learning. 強化学習のためのリワードフリー探索 0.64
In International Conference on Machine Learning, pages 4870–4879. 機械学習に関する国際会議』4870-4879頁。 0.76
PMLR, 2020. PMLR、2020年。 0.88
[31] Raphael Kaplan and Karl J Friston. 31] ラファエル・カプランとカール・j・フリストン 0.63
Planning and navigation as active inference. アクティブ推論としての計画とナビゲーション。 0.70
Biological cybernetics, 112(4):323–343, 2018. バイオサイバネティックス, 112(4):323–343, 2018。 0.70
[32] Diederik P Kingma and Jimmy Ba. [32]Diederik P KingmaとJimmy Ba。 0.79
Adam: A method for stochastic optimization. Adam: 確率最適化の方法です。 0.69
arXiv preprint arXiv:1412.6980, 2014. arXiv arXiv:1412.6980, 2014 0.80
[33] Thomas Kipf, Elise van der Pol, and M. Welling. [33]トマス・キップ、エリーゼ・ヴァン・デル・ポル、m・ウェリング。 0.40
Contrastive learning of structured world models. 構造化の対比学習 世界モデル。 0.80
ArXiv, abs/1911.12247, 2020. ArXiv, abs/1911.12247, 2020 0.77
[34] Alexander S Klyubin, Daniel Polani, and Chrystopher L Nehaniv. [34]Alexander S Klyubin、Daniel Polani、Chrystopher L Nehaniv。 0.69
Empowerment: A universal agent-centric measure of control. エンパワーメント: 普遍的なエージェント中心の制御尺度。 0.82
In 2005 IEEE Congress on Evolutionary Computation, volume 1, pages 128–135. 2005年、IEEE Congress on Evolutionary Computation, Volume 1, page 128–135。 0.80
IEEE, 2005. 2005年、IEEE。 0.70
[35] Balaji Lakshminarayanan, Alexander Pritzel, and Charles Blundell. Balaji Lakshminarayanan氏、Alexander Pritzel氏、Charles Blundell氏。 0.58
Simple and scalable predictive uncertainty estimation using deep ensembles. 深層アンサンブルを用いた簡易かつスケーラブルな予測不確実性推定 0.65
arXiv preprint arXiv:1612.01474, 2016. arXiv preprint arXiv:1612.01474, 2016 0.80
[36] Lisa Lee, Benjamin Eysenbach, Emilio Parisotto, Eric P. Xing, Sergey Levine, and Ruslan Salakhutdinov. Lisa Lee氏、Benjamin Eysenbach氏、Emilio Parisotto氏、Eric P. Xing氏、Sergey Levine氏、Ruslan Salakhutdinov氏。 0.70
Efficient exploration via state marginal matching. 状態境界マッチングによる効率的な探索。 0.59
ArXiv, abs/1906.05274, 2019. ArXiv, abs/1906.05274, 2019 0.78
[37] J. Lehman and K. Stanley. [37]j・リーマンとk・スタンレー 0.61
Exploiting open-endedness to solve problems through the 問題解決のためのオープンディペンダネスの展開 0.67
search for novelty. In ALIFE, 2008. 新鮮さを探せ 2008年、ALIFE。 0.55
[38] Beren Millidge, Alexander Tschantz, and Christopher L. Buckley. Beren Millidge, Alexander Tschantz, Christopher L. Buckley. 0.59
Whence the Expected Free Energy? 自由エネルギーとは何か? 0.66
Neural Computation, 33(2):447–482, 02 2021. Neural Computation, 33(2):447–482, 02 2021。 0.91
ISSN 0899-7667. doi: 10.1162/neco_a_01354 . ISSN 0899-7667: 10.1162/neco_a_01354 0.50
URL https://doi.org/10.1 162/neco_a_01354. URL https://doi.org/10.1 162/neco_a_01354 0.37
[39] Ishan Misra and Laurens van der Maaten. Ishan Misra and Laurens van der Maaten.[39] Ishan Misra and Laurens van der Maaten. 0.68
Self-supervised learning of pretext-invariant representations. プレテキスト不変表現の自己教師付き学習 0.48
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6707–6717, 2020. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 6707–6717, 2020。 0.92
[40] Shakir Mohamed and Danilo Jimenez Rezende. 40] Shakir Mohamed 氏と Danilo Jimenez Rezende 氏。 0.84
Variational information maximisation for intrinsically motivated reinforcement learning. 変動情報最大化 動機づけられた強化学習です 0.77
In NIPS, 2015. 2015年、NIPS。 0.75
[41] Pierre-Yves Oudeyer and Frederic Kaplan. He41] Pierre-Yves OudeyerとFrederic Kaplan。 0.85
What is intrinsic motivation? 固有の動機とは何か? 0.51
a typology of computational approaches. 計算手法の類型論です 0.60
Frontiers in Neurorobotics, 1:6, 2009. 神経ロボティクスのフロンティア、2009年1:6。 0.56
ISSN 1662-5218. doi: 10.3389/neuro.12.006 .2007. ISSN 1662-5218. doi: 10.3389/neuro.12.006 .2007 0.43
URL https://www.frontier sin.org/article/10.3 389/ neuro.12.006.2007. URL https://www.frontier sin.org/article/10.3 389/ neuro.12.006.2007 0.32
[42] Thomas Parr and Karl J Friston. トーマス・パーとカール・J・フリーストン。 0.54
Generalised free energy and active inference. 一般化された自由エネルギーと能動推論。 0.61
Biological Cybernetics, 113(5-6):495–513, 2019. 生物学 113(5-6):495-513, 2019。 0.67
12 12 0.85
英語(論文から抽出)日本語訳スコア
[43] Deepak Pathak, Pulkit Agrawal, Alexei A. Efros, and Trevor Darrell. [43]Deepak Pathak、Pulkit Agrawal、Alexei A. Efros、Trevor Darrell。 0.69
Curiosity-driven exploration by self-supervised prediction. 自己教師付き予測による好奇心駆動探査 0.46
2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pages 488–489, 2017. 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) 488-489, 2017 0.77
[44] H. Raiffa and R. Schlaifer. 44] H. Raiffa と R. Schlaifer 0.80
Applied Statistical Decision Theory. 統計決定理論を応用。 0.85
Studies in managerial economics. Division of Research, Graduate School of Business Administration, Harvard University, 1961. 経営経済学を専攻。 1961年、ハーバード大学経営大学院研究科を卒業。 0.62
URL https://books.google .co.uk/books?id=SpO0KFcFQDsC. URL https://books.google .co.uk/books?id=SpO0KFcFQDsC 0.44
[45] Richard M Ryan and Edward L Deci. 45] リチャード・m・ライアンと エドワード・l・デシ 0.72
Intrinsic and extrinsic motivations: Classic definitions and new directions. 内在的・外在的動機:古典的定義と新たな方向性 0.65
Contemporary educational psychology, 25(1):54–67, 2000. 現代教育心理学 25(1):54-67, 2000 0.78
[46] Noor Sajid, Thomas Parr, Thomas M Hope, Cathy J Price, and Karl J Friston. 46]noor sajid、thomas parr、thomas m hope、cathy j price、karl j friston。
訳抜け防止モード: [46 ]Noor Sajid, Thomas Parr, Thomas M Hope, キャシー・J・プライス、カール・J・フリーストン。
0.77
Degen- eracy and redundancy in active inference. 伝玄 有効推論における老化と冗長性 0.44
Cerebral Cortex, 30(11):5750–5766, 2020. Cerebral Cortex, 30(11):5750–5766, 2020 0.95
[47] Noor Sajid, Philip J Ball, Thomas Parr, and Karl J Friston. Noor Sajid氏、Philip J Ball氏、Thomas Parr氏、Karl J Friston氏。 0.69
Active inference: demystified アクティブ推論:デミスト化 0.57
and compared. Neural Computation, 33(3):674–712, 2021. 比較しました Neural Computation, 33(3):674–712, 2021。 0.76
[48] Jürgen Schmidhuber. ユルゲン・シュミット (Jürgen Schmidhuber)。 0.57
A possibility for implementing curiosity and boredom in model- モデルに好奇心と退屈をもたらす可能性- 0.75
building neural controllers. ニューラルコントローラの構築。 0.69
1991. [49] Jürgen Schmidhuber. 1991. ユルゲン・シュミット (Jürgen Schmidhuber)。 0.71
Simple algorithmic principles of discovery, subjective beauty, 発見の単純なアルゴリズム原理、主観的美 0.75
selective attention, curiosity & creativity. 選択的な注意 好奇心と創造性 0.70
In Discovery Science, 2007. 2007年、ディスカバリー・サイエンス。 0.54
[50] Jürgen Schmidhuber. ユルゲン・シュミット(Jürgen Schmidhuber)。 0.58
Formal theory of creativity, fun, and intrinsic motivation (1990– 創造性、楽しみ、本質的な動機の形式理論(1990–) 0.77
2010). IEEE Transactions on Autonomous Mental Development, 2(3):230–247, 2010. 2010). IEEE Transactions on Autonomous Mental Development, 2(3):230–247, 2010 0.89
[51] Roger Schrodinger, Erwin Schrödinger, and Erwin Schr Dinger. [51] Roger Schrodinger、Erwin Schrödinger、Erwin Schr Dinger。 0.65
What is life? : With mind and matter and autobiographical sketches. 人生とは何か? と 心と物質と自伝的なスケッチです 0.52
Cambridge University Press, 1992. ケンブリッジ大学出版局、1992年。 0.65
[52] Philipp Schwartenbeck, Johannes Passecker, Tobias U Hauser, Thomas HB FitzGerald, Martin Kronbichler, and Karl J Friston. Philipp Schwartenbeck氏、Johannes Passecker氏、Tobias U Hauser氏、Thomas HB FitzGerald氏、Martin Kronbichler氏、Karl J Friston氏。 0.74
Computational mechanisms of curiosity and goal-directed exploration. 好奇心の計算機構と目標指向探索 0.71
eLife, 8:e41703, 2019. eLife, 8:e41703, 2019。 0.92
[53] Ramanan Sekar, Oleh Rybkin, Kostas Daniilidis, Pieter Abbeel, Danijar Hafner, and Deepak Pathak. Ramanan Sekar氏、Oleh Rybkin氏、Kostas Daniilidis氏、Pieter Abbeel氏、Danijar Hafner氏、Deepak Pathak氏。 0.66
Planning to explore via self-supervised world models. 自己監督型世界モデルによる探索計画。 0.77
In International Conference on Machine Learning, pages 8583–8592. 機械学習に関する国際会議』8583-8592頁。 0.77
PMLR, 2020. PMLR、2020年。 0.88
[54] Pranav Shyam, Wojciech Jaskowski, and Faustino Gomez. Pranav Shyam, Wojciech Jaskowski, Faustino Gomez。 0.47
Model-based active explo- モデルに基づくアクティブエクスプロー 0.79
ration. In ICML, 2019. レーションだ 2019年、ICML入社。 0.63
[55] Pranav Shyam, Wojciech Jaśkowski, and Faustino Gomez. Pranav Shyam, Wojciech Ja'kowski, Faustino Gomez。 0.56
Model-based active exploration. モデルに基づく活動探索。 0.64
In International Conference on Machine Learning, pages 5779–5788. 機械学習に関する国際会議」5779-5788頁。 0.78
PMLR, 2019. 2019年、PMLR。 0.72
[56] Satinder Singh, A. Barto, and N. Chentanez. [56]Satinder Singh, A. Barto, N. Chentanez. 0.86
Intrinsically motivated reinforcement 本質的に動機づけられた強化 0.40
learning. In NIPS, 2004. 学ぶこと。 2004年、NIPS。 0.69
[57] Satinder Singh, Andrew G Barto, and Nuttapong Chentanez. 57]Satinder Singh, Andrew G Barto, Nuttapong Chentanez 0.58
Intrinsically motivated reinforcement learning. 本質的な強化学習です 0.63
Technical report, MASSACHUSETTS UNIV AMHERST DEPT OF COMPUTER SCIENCE, 2005. MASSACHUSETTS UNIV AMHERST DEPT OF Computer SCIENCE, 2005 0.47
[58] Satinder Singh, Richard L Lewis, Andrew G Barto, and Jonathan Sorg. Satinder Singh氏、Richard L Lewis氏、Andrew G Barto氏、Jonathan Sorg氏。 0.67
Intrinsically motivated reinforcement learning: An evolutionary perspective. 本質的動機づけによる強化学習:進化的視点。 0.68
IEEE Transactions on Autonomous Mental Development, 2(2):70–82, 2010. IEEE Transactions on Autonomous Mental Development, 2(2):70–82, 2010 0.92
[59] Bradly C. Stadie, Sergey Levine, and P. Abbeel. 59]Bradly C. Stadie、Sergey Levine、P. Abbeel。 0.72
Incentivizing exploration in reinforce- 強化力探査のインセンティブ化- 0.51
ment learning with deep predictive models. 深い予測モデルによるメンション学習。 0.76
NIPS, 2015. NIPS、2015年。 0.76
[60] Russell K Standish. 60]ラッセル・k・スタンディッシュ 0.50
Open-ended artificial evolution. オープンエンド人工進化。 0.77
International Journal of Computa- international journal of computa- 0.82
tional Intelligence and Applications, 3(02):167–175, 2003. Optial Intelligence and Applications, 3(02):167–175, 2003。 0.73
[61] Kenneth O Stanley, Joel Lehman, and Lisa Soros. 61]Kenneth O Stanley、Joel Lehman、Lisa Soros。 0.61
Open-endedness: The last grand challenge you’ve never heard of. オープン・エンドネス: あなたが聞いたことのない最後の大きな挑戦。 0.80
While open-endedness could be a force for discovering intelligence, it could also be a component of AI itself, 2017. オープンエンディネスはインテリジェンスを発見するための力になるかもしれないが、AI自体のコンポーネントでもあるかもしれない。 0.60
13 13 0.85
英語(論文から抽出)日本語訳スコア
[62] Susanne Still and Doina Precup. 62]Susanne StillとDoina Precup。 0.60
An information-theoreti c approach to curiosity-driven 好奇心駆動型情報理論的アプローチ 0.53
reinforcement learning. Theory in Biosciences, 131:139–148, 2011. 強化学習。 The Theory in Biosciences, 131:139–148, 2011 0.71
[63] Adam Stooke, Kimin Lee, P. Abbeel, and M. Laskin. [63]Adam Stooke、Kimin Lee、P. Abbeel、M. Laskin。 0.80
Decoupling representation learning from reinforcement learning. 表現学習の分離 強化学習の成果です 0.66
ArXiv, abs/2009.08319, 2020. ArXiv, abs/2009.08319, 2020 0.77
[64] Richard S Sutton and Andrew G Barto. 64] リチャード・s・サットンと アンドリュー・g・バート 0.72
Reinforcement Learning: An Introduction. MIT 強化学習: 入門。 MIT 0.69
press, 2018. 2018年、プレス。 0.72
[65] Giulio Tononi and Chiara Cirelli. [65]Giulio TononiとChiara Cirelli。 0.70
Sleep function and synaptic homeostasis. 睡眠機能とシナプス性ホメオスタシス 0.66
Sleep medicine reviews, 10(1):49–62, 2006. 睡眠 医学評論 10(1):49-62, 2006。 0.78
[66] Alexander Tschantz, Anil K Seth, and Christopher L Buckley. Alexander Tschantz氏、Anil K Seth氏、Christopher L Buckley氏。 0.62
Learning action-oriented アクション指向の学習 0.63
models through active inference. アクティブ推論によるモデル。 0.72
PLoS computational biology, 16(4):e1007805, 2020. plos computational biology, 16(4):e1007805, 2020。 0.83
[67] Kai Ueltzhöffer. [67]Kai Ueltzhöffer。 0.67
Deep active inference. Biological Cybernetics, 112(6):547–573, 2018. 深い活動的推論。 バイオサイバネティックス, 112(6):547-573, 2018。 0.69
[68] Aäron van den Oord, Y. Li, and Oriol Vinyals. 68] Aäron van den Oord, Y. Li, and Oriol Vinyals 0.72
Representation learning with contrastive コントラストによる表現学習 0.81
predictive coding. ArXiv, abs/1807.03748, 2018. 予測符号化。 ArXiv, abs/1807.03748, 2018。 0.69
[69] Ruosong Wang, Simon S Du, Lin F Yang, and Ruslan Salakhutdinov. [69]ruosong wang、simon s du、lin f yang、ruslan salakhutdinov。 0.49
On reward-free reinforcement learning with linear function approximation. 線形関数近似を用いた無報酬強化学習について 0.70
arXiv preprint arXiv:2006.11274, 2020. arXiv preprint arXiv:2006.11274, 2020 0.81
[70] Robert C Wilson, Andra Geana, John M White, Elliot A Ludvig, and Jonathan D Cohen. Robert C Wilson氏、Andra Geana氏、John M White氏、Elliot A Ludvig氏、Jonathan D Cohen氏。
訳抜け防止モード: [70 ] Robert C Wilson, Andra Geana, John M White, Elliot A LudvigとJonathan D Cohen。
0.79
Humans use directed and random exploration to solve the explore–exploit dilemma. 人間は探索と探索のジレンマを解決するために有向かつランダムな探索を用いる。 0.54
Journal of Experimental Psychology: General, 143(6):2074, 2014. journal of experimental psychology: general, 143(6):2074, 2014を参照。 0.90
14 14 0.85
英語(論文から抽出)日本語訳スコア
A Pepper implementation Pepper was implemented as an extension to Dreamer V2 [24] public implementation7. Pepperの実装はDreamer V2 [24] public implementation 7の拡張として実装された。 0.80
Specifically, Dreamer’s generative model training loop was used, alongside a model predictive control (MPC) planner. 具体的には、Dreamerの生成モデルトレーニングループとモデル予測制御(MPC)プランナーが使用された。 0.82
Therefore, the actor learning part of Dreamer was not incorporated, and the generative model was trained using Plan2Explore [53]. そのため,Dreamerのアクター学習部は組み込まれず,Plan2Explore[53]を用いて生成モデルを訓練した。 0.80
Like Plan2Explore, an ensemble of image encoders were learnt and the “disagreement” of the encoders was used as an intrinsic reward during training. Plan2Exploreのように、画像エンコーダのアンサンブルが学習され、訓練中に固有の報酬としてエンコーダの“診断”が使用された。 0.62
This guides the agent to explore areas of the map that have high novelty and potentially high information gain, when acquiring a generative (i.e., world) model. これにより、生成的(つまり世界)モデルを取得する際に、エージェントは、高い新規性と潜在的に高い情報ゲインを持つマップの領域を探索する。 0.71
Unfortunately, replacing the amortised policy with this planner made the environment interaction (i.e., the acting loop) relatively slow. 残念なことに、償却されたポリシーをこのプランナーに置き換えることで、環境相互作用(つまり行動ループ)は比較的遅くなった。
訳抜け防止モード: 残念なことに、償却政策をこのプランナーに置き換える 環境相互作用(つまり行動ループ)を比較的遅くしました
0.77
We implemented the planner as described in Algorithm 2. アルゴリズム2に記述したプランナーを実装した。 0.73
Algorithm 2: Planner Input : st current state N Number of random action sequences to evaluate Initialise for i=1. Algorithm 2: Planner Input : st current state N number of random action sequences to evaluate initialise for i=1。 0.88
. . N do πi ∼ U scorei ← 0 for τ = t . . . n は τ = t に対して πi と u scorei を 0 とする。 0.79
. . H do /* Random action */ . . H do /*ランダムアクション */ 0.82
scorei ← scorei − G(πi, τ) scorei (複数形 scoreis) 0.29
/* Updated according Eq 4 or Eq 5 */ /* Eq 4 または Eq 5 */ に従って更新される 0.71
k ← arg max score Return πk Upon training completion, we froze the generative model learnt weights and only allowed learning of prior preferences. k, arg max score Return πk 学習完了時には、生成モデルを凍結させてウェイトを学習し、事前の嗜好の学習のみを許す。
訳抜け防止モード: k > arg max score return πk when training completion, we froze the generative model learnt weights 事前選好の学習のみを許可しました
0.76
These (state or reward) preferences were updated after each episode, as described in Algorithm 1. これらの(状態または報酬)選好は、アルゴリズム1で説明されているように、各エピソードの後に更新された。
訳抜け防止モード: これら(状態または報酬)の好みは各エピソードの後に更新される。 Algorithm 1 で説明されている。
0.60
A.1 Evidence lower bound The generative model was optimised using the ELBO formulation introduced in [22]: A.1 証拠低境界 生成モデルは[22]に導入されたELBOの定式化を用いて最適化された。 0.65
L(θ) = TX t=1 L(θ) = TX t=1。 0.72
Qφ(st|o≤t,a≤t) qφ(st|ohtmlt,ahtmlt) 0.62
(cid:2)−E [log Pθ(ot | st, π)] | {z {z | (cid:2)-E [log Pθ(ot | st, π)] | {z {z | 0.93
Qφ(st|o≤t,a≤t) qφ(st|ohtmlt,ahtmlt) 0.62
dynamics − E [log Pθ(rt | st, π)] dynamics E[log Pθ(rt | st, π)] 0.79
Qφ(st|o≤t,a≤t) qφ(st|ohtmlt,ahtmlt) 0.62
} reconstruction + E [DKL(Qφ(st | ot, st−1, π)) k Pθ(st | st−1, π)] } 復興 + E[DKL(Qφ(st | ot, st−1, π)) k Pθ(st | st−1, π)] 0.80
(6) (cid:3) . (6) (cid:3)。 0.78
} A.2 Expected free energy for pepper We implemented EFE using the parameterisations introduced in [14] and adapted for [24]: • Term 4a was modelled as a categorical likelihood model (using normalised Dirichlet counts). } 14] で導入されたパラメータ化を使って efe を実装し、[24]: • 項 4a を(正規化ディリクレ数を用いて)カテゴリー的確率モデルとしてモデル化した。 0.79
• Term 4b was computed as the KL divergence between the prior (s ∼ Q(sτ|π)) and the posterior (s ∼ P(sτ|oτ , π)) states. • 項 4b は、前(s ) Q(sτ|π) と後(s ) P(sτ|oτ , π) の KL 分岐として計算された。 0.77
This could be computed analytically because the prior and posterior state distributions were modelled as Categorical distributions. これは、前と後の状態分布がカテゴリー分布としてモデル化されたため、解析的に計算できる。 0.65
Here, the dependency on the policy π was accounted for by using the RNN hidden state ht summarising past actions and roll-outs. ここで、ポリシーπへの依存は、過去の行動とロールアウトをまとめたRNN隠蔽状態htを用いて説明された。 0.59
• Term 5a was computed as the entropy of the observation model P(oτ|sτ , π). • 項 5a は観測モデル P(oτ|sτ , π) のエントロピーとして計算された。 0.76
Happily, the factorisation of the observation model – as independent Gaussian distributions – allowed us to calculate the entropy term in closed form. 幸いにも、独立ガウス分布として観測モデルの分解により、エントロピー項を閉形式で計算することができた。 0.74
7https://github.com/ danijar/dreamerv2 7https://github.com/ danijar/dreamerv2 0.34
15 15 0.85
英語(論文から抽出)日本語訳スコア
• Term 5b was computed as the difference between log Q(sτ|π) and log P(sτ|D), where log Q(sτ|π) was approximated using a single sample from the prior model Q(sτ|θ, π). • 項 5b は log q(sτ|π) と log p(sτ|d) の差として計算され、log q(sτ|π) は以前のモデル q(sτ|θ, π) からの単一のサンプルを用いて近似された。 0.70
Again, the dependency on π was substituted by ht. 再び、π への依存は ht によって置換された。 0.62
• Terms 4c and 5c were more challenging to compute. • 4c と 5c は計算が困難であった。 0.76
Like [14], we rearranged the expression to H(oτ|sτ , θ, π) − H(oτ|sτ , π). 14] と同様に、式を H(oτ|sτ , θ, π) − H(oτ|sτ , π) に並べ替えた。 0.74
This translates to I(oτ; θ|sτ , π), and can be approximated using Deep Ensembles [35, 53] and calculating their variance Varθ[EQ(oτ|sτ , θ, π)]. これは I(oτ; θ|sτ , π) と翻訳され、Deep Ensembles [35, 53] を用いて近似し、その分散 Varθ[EQ(oτ|sτ , θ, π)] を計算することができる。 0.73
Here, each ensemble component can be seen as a sample from the posterior Q(θ|sτ , π). ここで、各アンサンブル成分は後部 Q(θ|sτ , π) のサンプルと見なすことができる。 0.78
Our experiments showed that using 5 components was sufficient. 実験の結果,5成分使用で十分であった。 0.75
B Experiments FrozenLake For these experiments, we simulated the agent in five distinct situations ranging from a non-volatile, static environment to a highly volatile one i.e., a different FrozenLake map every step. B実験 これらの実験では、エージェントは不揮発性で静的な環境から非常に揮発性のある環境、すなわち異なるFrozenLakeマップまでの5つの異なる状況でシミュレーションした。 0.79
For all episodes in the static setting, the agent was initialised at a fixed location with no changes to the FrozenLake map throughout that particular episode. 静的設定のすべてのエピソードについて、エージェントは固定された場所で初期化され、そのエピソード全体を通してFrozenLakeマップは変更されなかった。 0.68
Conversely, agents operating in the volatile setting were initialised at a different location each time. 逆に、揮発性設定で動作するエージェントは、毎回異なる場所で初期化される。 0.69
Moreover, the FrozenLake map was also changed every N steps – given the desired volatility level. さらに、望まれるボラティリティレベルから、FrozenLakeマップもNステップ毎に変更された。 0.68
For 100% volatility the map changed every step, 75% volatility corresponded to map changes every 10 steps, 50% volatility corresponded to map changes every 20 steps and 25% volatility corresponded to map changes every 40 steps. 75%のボラティリティは10ステップ毎のマップ変更に対応し、50%のボラティリティは20ステップ毎のマップ変更に対応し、25%のボラティリティは40ステップ毎のマップ変更に対応する。 0.62
Additionally, the generative model used for these experiments was trained in a volatile setting where the map changed every 5 steps (Table 1). さらに,これらの実験に用いた生成モデルは,5ステップ毎に地図が変化する揮発性設定で訓練された(表1)。 0.85
TileWorld For these experiments, we simulated the agent under two conditions (nonvolatile and volatile). TileWorld これらの実験では、エージェントを2つの条件(揮発性および揮発性)でシミュレーションした。 0.66
For the non-volatile setting, the agent was initialised at a fixed location with no changes to the TileWorld map throughout training and testing. 非揮発性設定では、エージェントはトレーニングとテストを通じてTileWorldマップを変更することなく、固定された場所で初期化された。 0.64
In the volatile setting, for every K step, we toggle alternate between a randomly sampled map and the original map. 揮発性設定では、K ステップごとにランダムにサンプリングされた写像と元の写像の交互に切り替える。 0.58
This allowed us to simulate uncertain states that trigger exploratory behaviour. これにより、探索行動を引き起こす不確実な状態をシミュレートすることができます。 0.47
The generative model used for these experiments was trained in a volatile setting where the map changed every 10 steps (Table 1). これらの実験に用いた生成モデルは10ステップごとに地図が変化する揮発性設定で訓練された(表1)。 0.84
Table 1: Training parameters 表1:トレーニングパラメータ 0.78
Parameter Planning Horizon Episode Length Reset Every No. パラメータ計画水平エピソード長は毎回リセットされる 0.67
Episodes No. State Categories No. エピソードNo。 州区分No。 0.61
State Dimensions No. Reward Categories 状態次元no。 Reward Categories 0.70
FrozenLake 15 steps 50 steps 5 steps 50 episodes 64 categories 50 dimensions 4 categories FrozenLake 15 steps 50 steps 5 steps 50 episodes 64 category 50 dimension 4 categories 0.84
TileWorld 15 steps 200 steps 10 steps 50 episodes 32 categories 50 dimensions 3 categories TileWorld 15 steps 200 steps 10 steps 50 episodes 32 category 50 dimensions 3 categories 0.85
Table 2: Preference learning parameters for long-term learning 表2:長期学習のための選好学習パラメータ 0.88
Parameter Planning Horizon Episode Length No. パラメータ計画水平エピソード長No。 0.65
Episodes Reset Map Every No. エピソードごとに地図をリセットする。 0.68
Agents FrozenLake 15 steps 50 steps 50 episodes 1, 10, 20, 40, 50 steps 10 agents エージェント frozenlake 15 step 50 steps 50 episodes 1, 10, 20, 40, 50 steps 10 agents 0.78
TileWorld 15 steps 200 steps 50 episodes 10 steps 3 agents TileWorld 15 ステップ 200 ステップ 50 エピソード 10 ステップ 3 エージェント 0.70
B.1 Computational requirements Overall, our experiments required 1344 GPU hours. B.1 計算要求総じて、我々の実験は1344GPU時間を必要とした。 0.61
Each GPU was a GeForce RTX 3090. それぞれのGPUはGeForce RTX 3090である。 0.85
16 16 0.85
英語(論文から抽出)日本語訳スコア
Image reconstruction and imagined roll-outs 画像再構成と想像ロールアウト 0.70
B.2 For apt learning of preferences, the agent’s generative model must be able to accurately infer the current (and future) states of affairs. b.2 選好のapt学習には、エージェントの生成モデルは、現在の(そして将来の)状況を正確に推測できなければならない。 0.80
To evaluate this for our learnt generative models, we illustrate representative examples of reconstructions encoded by the pepper agents for a particular episode. これを学習した生成モデルで評価するために、特定のエピソードのためにペッパーエージェントによってコード化された再構成の代表的な例を示す。
訳抜け防止モード: これを学習生成モデルとして評価する。 ペッパーエージェントが 特定のエピソードにエンコードした 復元の代表的な例を説明します
0.73
Fig 5 shows the reconstructions for FrozenLake, and Fig 6 for TileWorld. Fig 5は、FrozenLakeとFig 6 for TileWorldの再構築を示している。 0.77
The imagined roll-outs for the TileWorld environment are shown in Fig 7. 想像上のTileWorld環境のロールアウトは、図7に示されています。 0.64
Figure 5: An example of the FrozenLake reconstruction for the first 10 steps of an episode, with map changes at T = 4 & 9. 図5: エピソードの最初の10ステップのFrozenLake再構築の例で、T = 4 と 9 のマップ変更があります。 0.75
Figure 6: An example of TileWorld reconstruction for the first 10 steps of an episode. 図6: エピソードの最初の10ステップのTileWorld再構築の例。 0.62
C Behaviour under long-term preference learning C.1 Learnt preferences We expected differences in learnt preferences to induce shifts in agent behaviour. 長期選好学習におけるC行動 : C.1学習選好と学習選好の違いがエージェント行動の変化を引き起こすことを期待した。
訳抜け防止モード: 長期選好学習c.1学習者選好におけるc行動 エージェント行動の変化を誘発する学習嗜好の違いを期待した。
0.64
For example, agents who repeatedly accrued Dirichlet pseudo-counts for the same category would exhibit preference satisfying behaviour. 例えば、同じカテゴリーでディリクレの擬似数を繰り返し取得したエージェントは、満足な行動を示す。
訳抜け防止モード: 例えば エージェントは 繰り返すdirichlet pseudo - 同じカテゴリのカウント 嗜好が満足のいく行動を示します
0.68
This would be due to high precision (or confidence) over that particular category. これは、特定のカテゴリに対する高い精度(または信頼)に起因する。 0.74
In contrast, an agent who accrued Dirichlet pseudo-counts for different categories would exhibit exploratory behaviour given an imprecise (or low confidence) distribution over the categories. 対照的に、ディリクレの偽数を異なるカテゴリに分類したエージェントは、カテゴリに不正確(または低い信頼度)な分布を与えて探索的行動を示す。 0.63
To illustrate how different environment settings shaped preference learning we looked at the static and volatile setting where the FrozenLake map changed every step. そこで、FrozenLakeマップがステップ毎に変化した静的で揮発的な設定を見てみました。 0.53
Fig 8 shows a representative example of state preference learning under these conditions, and Fig 9 an example of reward preference learning. fig 8はこれらの条件下での選好学習の代表例を示し、fig 9は報奨選好学習の例である。 0.72
We observed that state preferences learnt under a static setting were precise – denoted by the repeated pseudocount accumulation over category 25. 静的な条件下で学習した状態選好は,カテゴリー25の繰り返し擬似数蓄積によって,正確であることがわかった。 0.68
Conversely, for the volatile setting an imprecise state preference distribution was learnt (Fig.8). 逆に揮発性設定では不正確な状態選好分布を学習する(図8)。 0.80
Separately, we observed that the learnt reward preferences were precise – regardless of the setting. 個別に、学習した報酬の好みは、設定に関係なく正確であることがわかった。 0.60
We posit that this is a consequence of これが結果だと仮定します 0.59
17 17 0.85
英語(論文から抽出)日本語訳スコア
Figure 7: An example the observations from an imagined roll-out in the latent state space. 図7: 潜在状態空間における想像上のロールアウトからの観測例。 0.83
These roll-outs are constructed using a random action trajectory that is propagated forward to get a latent state sequence. これらのロールアウトはランダムな動作軌跡を用いて構築され、遅延状態列を得るために前方に伝播される。 0.59
For each of the latent states the observations were sampled from the observation model P(ot|st). 各潜在状態について観測結果を観測モデルp(ot|st)からサンプリングした。 0.80
differences in the reward and state category space. 報酬と国家のカテゴリー空間の違いです 0.61
In other words, having a large number of state categories allowed distinct preferences to be learnt under static and volatile settings. 言い換えれば、多くの状態カテゴリを持つことで、異なる好みを静的かつ揮発的な設定で学習することができる。 0.70
This is reflected in the qualitative differences seen between the two (Fig.8). これは両者の質的な違いに反映される(第8図)。 0.75
C.2 Agent trajectories C.2 エージェント軌道 0.72
Next, we evaluated how disparate the agent trajectories were given the observed differences in preference accumulation (Figure 8 and 9). 次に, 嗜好の蓄積率の差が観察された場合について評価した(第8および第9図)。 0.71
For the static setting, we observed agents satisfying their preferences by restricting movement to a small patch in the FrozenLake. 静的設定では,FrozenLakeの小さなパッチへの移動を制限することで,エージェントが好みを満たすことを観察した。 0.68
This behaviour was observed consistently across all agents (i.e., different seeds) and episodes. この行動は、すべてのエージェント(すなわち異なる種)とエピソードで一貫して観察された。 0.68
We present a representative example in Fig 10. 代表的な例を図10に示す。 0.77
Separately, agents simulated in the volatile setting (where the map changed every step) learnt a bi-modal preference set (i.e., preferred to go to one of two locations in the FrozenLake). 別々に、エージェントは揮発性設定(地図が各ステップに変化した場所)でシミュレートされ、双方向の好みセット(すなわち、フロズンレイクの2つの場所のうちの1つへ行きたがる)を学習した。 0.67
Here, the location preference depended on the initial location i.e., if the agent was initialised in a tile close to the first preferred location then it choose to go there. ここでは、位置の選好は初期位置、すなわち、エージェントが最初に好まれる位置に近いタイルで初期化された場合、そこに行くことを選択した。 0.79
However, the second location was preferred if the agent was initialised close to it. しかし、エージェントが近くで初期化されると、第2の場所が好まれる。 0.66
We present a representative example in Fig 11. 代表的な例を図11に示す。 0.75
Interestingly, this 18 興味深いことに 18 0.72
英語(論文から抽出)日本語訳スコア
Figure 8: An example of learnt state preferences for a single agent in a static and highly volatile setting. 図8: 静的で非常に不安定な設定で、単一のエージェントに対する学習状態の選好の例。 0.70
Here, 64 state categories are presented on the x-axis and episodes on the y-axis. ここで、x軸とy軸のエピソードに64の状態カテゴリが示される。 0.77
The first panel is for preferences learnt under a static setting, and the second for preferences learnt under a volatile setting. 第1のパネルは静的な設定で学習した好みのためのもので、第2のパネルは揮発性設定で学習した好みのためのものである。
訳抜け防止モード: 最初のパネルは、静的な設定で学習する選好のためのものだ。 2つ目は揮発性環境下での学習です
0.66
The scale goes from white (i.e., high Dirichlet concentration) to black (i.e., low Dirichlet concentration), and grey indicates gradations between these. スケールは白色(高ジリクレ濃度)から黒色(低ジリクレ濃度)まで変化し、グレーはそれらの間の階調を示す。 0.68
Figure 9: An example of learnt reward preferences for a single agent in a static and highly volatile setting. 図9: 静的で非常に不安定な設定で、単一のエージェントに対する学習報酬の選好を示す例。 0.68
The first row is for preferences learnt under a static setting, and the second row for preferences learnt in a volatile setting. 第1行は静的な設定で学習した好みのためのもので、第2行は揮発性設定で学習した好みのためのものである。 0.59
Each figure illustrates the Dirichlet distribution in a 3-dimensional coordinate space, i.e., 2-simplex – for a particular episode (T). 各図は3次元座標空間におけるディリクレ分布、すなわち、特定のエピソード(T)に対する2-シプレックスを描いている。 0.67
Here, the concentration of dots in one corner reflect precise beliefs; and scattered dots denote imprecise beliefs. ここで、一角の点の集中は正確な信念を反映し、散在する点は不正確な信念を表す。 0.65
Each dot represents a single sample from the Dirichlet distribution (determined by the alpha parameters denoted at the bottom of each figure), and each plot displays 500 samples. 各ドットはディリクレ分布から1つのサンプル(図の底に示すアルファパラメータによって決定される)を表し、各プロットは500個のサンプルを表示する。 0.88
For clarity, we collapsed Goal and Sub-goals into one category. 明確にするために、私たちはゴールとサブゴールを1つのカテゴリに分解しました。 0.43
Preferences for both static and volatile setting are initialised as uniform (i.e., (1, 1, 1, 1) = (1, 1, 2)) denoted by the dots scattered across the simplex. 静的設定と揮発性設定の両方の選好は、ユニタリ (1, 1, 1, 1) = (1, 1, 2) として初期化される。
訳抜け防止モード: 静的設定と揮発性設定の両方の優先度は、一様(すなわち)として初期化される。 ( 1, 1, 1, 1 ) = ( 1, 1, 2 ) は単純点に散らばる点によって表される。
0.74
behaviour was observed in agents where the environment was 100% volatile, whereas agents operating in slightly less volatile settings continued exploring (Fig.3A). 環境が100%揮発性であるエージェントでは行動が観察されたが、わずかに揮発性が低いエージェントでは探索が続けられた(図3A)。 0.69
Importantly, these agents were able to disregard, noisy information about the states from the environment. 重要なことに、これらのエージェントは環境から州に関する騒がしい情報を無視することができた。
訳抜け防止モード: 重要なことに これらのエージェントは 環境から国家に関する騒がしい情報を無視する。
0.68
To qualify this, we looked at how the variance between the posterior これを確認するために 後方のばらつきがどのようにして 0.64
19 19 0.85
英語(論文から抽出)日本語訳スコア
Figure 10: Representative example of the agent trajectories observed during state preference learning under a static setting. 図10: 静的設定下で状態選好学習中に観察されるエージェント軌跡の代表的な例。 0.81
Figure 11: Representative example of the agent trajectories observed during state preference learning under the volatile setting. 図11:揮発性設定下で状態選好学習中に観察されたエージェント軌跡の代表的な例。 0.79
Each figure is an illustration of the agents trajectory for a particular episode. 各図は、特定のエピソードのエージェントの軌跡のイラストである。 0.72
Here, purple is the agents starting position, pink the trajectory, cyan square denotes the first learnt preference and dark blue denotes the second learnt preference. ここで紫はエージェント開始位置、ピンクは軌道、シアン四角は最初の学習者選好、ダークブルーは2番目の学習者選好を表す。 0.73
(s ∼ Qφ(st|ht, ot)) and prior (s ∼ Qφ(st|ht)) estimates differed across the 50 episodes for these agents (Fig.12). (s ) qφ(st|ht, ot) と pre (s ) q φ(st|ht) はこれらのエージェントの50話ごとに異なる推定値を示した(図12)。 0.71
We observed that the posterior estimates had a greater variance across the 50 dimensions relative to the prior variance. その結果, 後方推定値は, 先行推定値に対して50次元にわたって大きなばらつきを示した。 0.77
Given how these estimates are calculated, we postulate that differences in the variance were due to the change in the FrozenLake map that the agent finds itself in after it moved one step. これらの推定値の計算方法を考えると、ばらつきの違いは、エージェントが1ステップ移動した後に自らが発見したフリーズレイクマップの変更によるものであると仮定する。 0.68
These high variances in the posterior estimate, under a highly volatile setting, induced a change in behaviour from exploratory to preference satisfaction. これらの高い変動は、高い揮発性設定下で、探索的から嗜好的満足度への行動の変化を引き起こした。
訳抜け防止モード: 高揮発性条件下での後方推定におけるこれらの高分散 探索から嗜好への行動の変化を誘発した。
0.74
D Behaviour under short-term preference learning 短期選好学習におけるd行動 0.73
We expected reduced preference learning timescales to influence the agent’s preferred behaviour. 選好学習の時間尺度はエージェントの好む行動に影響を与えると予測した。 0.63
To evaluate this, we consider a setting where the agent was equipped with a sliding preference window i.e., after k steps the previous preferences were removed in favour of new ones. これを評価するために、エージェントにスライディング選好ウィンドウ、すなわち、kステップ後に前の選好を削除し、新しい選好を優先する設定について検討する。 0.61
To evaluate short-term preference learning, we considered state preferences with a sliding window of 5 episodes (Table 3). 短期選好学習を評価するために,5エピソードのスライディングウインドウで状態選好を検討した(表3)。 0.70
For this, we looked at the preferences learnt in the static and volatile (map changes every 10 steps) setting (Fig.13). そのため、静的および揮発性(10ステップ毎のマップ変更)設定で学んだ好みを調べた(図13)。 0.76
Predictably, we observed differences in the preference accumulation when the agents learnt short-term preferences regardless of the setting. 予測的に, エージェントが設定によらず短期的嗜好を学習した場合, 嗜好蓄積の差異を観察した。 0.62
Explicitly, in the static 明示的に、static で 0.76
20 20 0.85
英語(論文から抽出)日本語訳スコア
Figure 12: Variance over the estimated posterior (s ∼ Qφ(st|ht, ot)) and priors (s ∼ Qφ(st|ht)) under the volatile setting. 図12: 揮発性設定下での推定後段(s, qφ(st|ht, ot))および前段(s, qφ(st|ht))に対するばらつき 0.85
The scale goes from brown (low variance) to turquoise (high variance), and light shades indicate gradations between these. スケールはブラウン(低分散)からターコイズ(高分散)まで変化し、ライトシェードはこれらの間の階調を示す。 0.73
Table 3: Preference learning parameters for short-term learning 表3:短期学習のための選好学習パラメータ 0.89
Parameter Planning Horizon Episode Length No. パラメータ計画水平エピソード長No。 0.65
Episodes Reset Map Every Reset Preference Every No. Episodes Reset Map Every Reset Preference Every No. 0.85
Agents FrozenLake 15 steps 50 steps 50 episodes 1, 10, 20, 40, 50 steps 5 episodes 5 agents エージェント frozenlake 15 step 50 steps 50 episodes 1, 10, 20, 40, 50 steps 5 episodes 5 agents 0.79
setting the accrued preferences were flexibly learnt and unlearnt over time e g , category 24 was slowly unlearnt in favour of 11 category. 獲得した選好は、時間とともに柔軟に学習され、未学習となり、例えば、カテゴリー24は、ゆっくりと11のカテゴリーに好まれなかった。
訳抜け防止モード: accrued preferences の設定 時間とともに柔軟に学習し、理解不能であったカテゴリー24は、11のカテゴリに徐々に選択されていった。
0.68
Volatile conditions fostered perpetual preference uncertainty as accumulated Dirichlet pseudo-counts were repeatedly updated. 蓄積したディリクレの擬似カウントが繰り返し更新されたため、揮発性条件は永続的な嗜好の不確かさを増した。 0.39
Therefore, we would expect these agents to exhibit exploratory behaviour compared to agents equipped with long-term preferences due to imprecise preference learning. したがって,これらのエージェントは,不正確な嗜好学習による長期的嗜好を持つエージェントと比較して探索行動が期待できる。 0.67
To quantify this behaviour, we projected the latent states onto the first two components (fitted using long-term state preferences simulation data). この挙動を定量化するために、我々は潜在状態を最初の2つのコンポーネントに投影した(長期状態選好シミュレーションデータを用いて適合する)。
訳抜け防止モード: この行動を定量化するために 最初の2つのコンポーネント(長期状態選好シミュレーションデータに適合)に潜在状態を投影した。
0.77
The short-term simulation data only mapped onto a small space in Fig 2 latent space. 短期シミュレーションデータは、fig 2 潜在空間内の小さな空間にのみマッピングされる。 0.86
Furthermore, there was no clear separation between projected latent states across the the volatile and static settings. さらに、揮発性および静的な設定で投影された潜在状態の間に明確な分離はなかった。 0.74
This is reflected in the increased state entropy (∼ 0.5 nats), under both settings, as previously learnt preferences were removed (Fig.15). これは、以前の学習した選好が取り除かれたため、両方の設定で増大した状態エントロピー (0.5 nats) に反映される(図15)。 0.64
Next, we considered how the exploration and preference satisfaction trade-off might vary when preferences were learnt over a short time horizon. 次に,短い時間軸で選好を学ぶと,探索と選好満足度トレードオフがどう変化するかを検討した。 0.62
Using the Hausdorff distance, we evaluated how the volatility in the environment changed the agent’s behaviour to either exploratory or satisfying preferences (Fig.15). ハウスドルフ距離を用いて, 環境変動がエージェントの行動を探索的あるいは満足的な嗜好にどのように変化させたかを評価する(第15図)。 0.68
In contrast to the long-term state preference learning setting, we see a (slight) linear association between environment volatility and preference satisfaction. 長期的な選好学習設定とは対照的に,環境のボラティリティと選好満足度の間には(微妙に)線形な関係がある。 0.68
This is consistent with our expectation that a slow removal of accumulated Dirichlet parameters engenders consistently exploratory agents. これは、蓄積したディリクレパラメータの緩やかな除去が探索エージェントを一貫して引き起こすという我々の期待と一致している。 0.43
21 0102030405060categor ies010203040episodes Prior0102030405060ca tegories010203040Pos terior 21 0102030405060categor ies010203040episodes Prior0102030404060ca tegories010203040Pos terior 0.56
英語(論文から抽出)日本語訳スコア
Figure 13: An example of short term state preference learning for an agent in a static and highly volatile (map change every step) environment. 図13: 静的で揮発性の高い(ステップごとのマップ変更)環境で、エージェントに対する短期的な状態優先学習の例。 0.80
Here, 64 state categories are presented on the x-axis and episodes on the y-axis. ここで、x軸とy軸のエピソードに64の状態カテゴリが示される。 0.77
The first panel is for preferences learnt under a static setting, and the second for preferences learnt in a volatile setting. 第1のパネルは静的な設定で学習した好みのためのもので、第2のパネルは揮発性設定で学習した好みのためのものである。
訳抜け防止モード: 最初のパネルは、静的な設定で学習する選好のためのものだ。 第二の選好は揮発性設定で学習する。
0.68
The scale goes from white (high Dirichlet concentration) to black (low Dirichlet concentration), and grey indicates gradations between these. このスケールは白(高ジリクレ濃度)から黒(低ジリクレ濃度)まで変化し、灰色はそれらの間の階調を示す。 0.73
Figure 14: Visualisation of the posterior latent states (estimated using Qφ(st|ht, ot)) during state preference learning. 図14: (Qφ(st|ht, ot) を用いて推定) 状態選好学習中の後潜状態の可視化。 0.79
The states have been projected onto the first two principle components (fitted using long-term state preferences simulation data), and the black circles represent their k-mean centroid. これらの状態は、最初の2つの原理成分(長期状態選好シミュレーションデータを用いて適合する)に投影され、黒円はそのk平均中心を表す。 0.75
Here, the accompanying graphics present a representative agent trajectory with visited tiles highlighted from that particular cluster. ここで、付随するグラフィックは、特定のクラスタからハイライトされた訪問タイルを持つ代表エージェントの軌跡を示す。 0.65
22 22 0.85
英語(論文から抽出)日本語訳スコア
Figure 15: A: The violin plot illustrates the preference satisfaction and exploration trade-off measured using the Hausdorff distance [7] at different levels of volatility in the environment, when the agent had short term preferences. 図15:a: バイオリンプロットは、短期間の嗜好があった場合、環境のボラティリティの異なるレベルでハウスドルフ距離[7]を用いて測定した嗜好満足度と探索トレードオフを示します。 0.75
The x-axis denotes environment volatility: with a constant map (0%), change in map every 40 steps (25%), 20 steps (50%), 10 steps (75%) and every step (100%). x軸は環境のボラティリティを表しており、一定の地図(0%)、40ステップ(25%)、20ステップ(50%)、10ステップ(75%)、全ステップ(100%)ごとに地図の変化がある。 0.77
The y-axis denotes the Hausdorff distance. y軸はハウスドルフ距離を表す。 0.69
Here, red is for the agent optimising state preference learning Eq 5. ここで、赤は状態優先学習Eq5を最適化するエージェントである。 0.79
B: The line plot depicts the entropy over P(s) across varying levels of volatility in the environment. B: ラインプロットは、環境における様々なボラティリティのレベルにわたるP(s)上のエントロピーを描いている。 0.68
The x-axis represents the episodes, and the y-axis entropy (in natural units). x軸はエピソード、y軸エントロピー(自然単位)を表す。 0.60
Here, the dark lines represent the mean (across 5 seeds), and shaded area the 95% confidence interval. ここでは、暗い線は平均(5種以上)を表し、日陰領域は95%の信頼区間を示す。 0.79
The pink line is for 0%, blue for 25%, green for 50%, black for 75% and red for 100% volatility in the environment. ピンク色が0%、青が25%、緑が50%、黒が75%、赤が100%である。
訳抜け防止モード: ピンクラインは0%、ブルーラインは25%である。 緑は50%,黒は75%,赤は100%の揮発性を示した。
0.62
The spikes in entropy correspond to overwriting of learnt preferences. エントロピーのスパイクは学習者の好みの書き直しに対応する。 0.46
23 23 0.85
                                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。