論文の概要、ライセンス

# (参考訳) 振り返らない:可逆性を考慮した強化学習のための自己監督型アプローチ [全文訳有]

There Is No Turning Back: A Self-Supervised Approach for Reversibility-Aware Reinforcement Learning ( http://arxiv.org/abs/2106.04480v1 )

ライセンス: CC BY 4.0
Nathan Grinsztajn, Johan Ferret, Olivier Pietquin, Philippe Preux, Matthieu Geist(参考訳) 我々は,強化学習(RL)において,可逆的行動と不可逆的行動との区別を学習し,情報的意思決定を改善することを提案する。 理論的考察から, ランダムにサンプリングされた軌道イベントを時系列順にランク付けする, 単純なサロゲートタスクにより, 近似可逆性を学習できることが示唆された。 直感的には、同じ順序で常に観測される事象のペアは、不可逆的な一連の行動によって分離される。 同時に、イベントの時間的順序を学習することは、前もって経験から行動の可逆性を推定するために、完全に自己管理的な方法で行うことができる。 我々は,rlエージェントに可逆性を含む2つの異なる戦略,1つの探索戦略(rae)と1つの制御戦略(rac)を提案する。 本稿では,ソコバンゲームを含む,可逆性を考慮したエージェントの可能性を示す。 合成タスクでは、報酬関数にアクセスしなくても、決して失敗せず、相互作用の副作用をゼロにする制御ポリシーを学習できることが示される。

We propose to learn to distinguish reversible from irreversible actions for better informed decision-making in Reinforcement Learning (RL). From theoretical considerations, we show that approximate reversibility can be learned through a simple surrogate task: ranking randomly sampled trajectory events in chronological order. Intuitively, pairs of events that are always observed in the same order are likely to be separated by an irreversible sequence of actions. Conveniently, learning the temporal order of events can be done in a fully self-supervised way, which we use to estimate the reversibility of actions from experience, without any priors. We propose two different strategies that incorporate reversibility in RL agents, one strategy for exploration (RAE) and one strategy for control (RAC). We demonstrate the potential of reversibility-aware agents in several environments, including the challenging Sokoban game. In synthetic tasks, we show that we can learn control policies that never fail and reduce to zero the side-effects of interactions, even without access to the reward function.
公開日: Tue, 8 Jun 2021 16:07:10 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] G L . 8 ] G L。 0.81
s c [ 1 v 0 8 4 4 0 sc [ 1 v 0 8 4 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
There Is No Turning Back: A Self-Supervised Approach for 逆戻りはありません 自己監督型アプローチ 0.55
Reversibility-Aware Reinforcement Learning 可逆性を考慮した強化学習 0.44
Nathan Grinsztajn*,1, Johan Ferret*,2, Olivier Pietquin 2, Philippe Preux 1, Matthieu Geist 2 Nathan Grinsztajn*,1, Johan Ferret*,2, Olivier Pietquin 2, Philippe Preux 1, Matthieu Geist 2 0.85
1Univ. de Lille, CNRS, Inria Scool, UMR 9189 CRIStAL 1Univ。 de Lille, CNRS, Inria Scool, UMR 9189 CRIStAL 0.85
2Google Research, Brain Team 2Google Research, Brain Team 0.99
Abstract We propose to learn to distinguish reversible from irreversible actions for better informed decision-making in Reinforcement Learning (RL). 概要 我々は,強化学習(RL)において,可逆的行動と不可逆的行動との区別を学習し,情報的意思決定を改善することを提案する。 0.49
From theoretical considerations, we show that approximate reversibility can be learned through a simple surrogate task: ranking randomly sampled trajectory events in chronological order. 理論的考察から, ランダムにサンプリングされた軌道イベントを時系列順にランク付けする, 単純なサロゲートタスクにより, 近似可逆性を学習できることが示唆された。 0.59
Intuitively, pairs of events that are always observed in the same order are likely to be separated by an irreversible sequence of actions. 直感的には、同じ順序で常に観測される事象のペアは、不可逆的な一連の行動によって分離される。 0.70
Conveniently, learning the temporal order of events can be done in a fully self-supervised way, which we use to estimate the reversibility of actions from experience, without any priors. 同時に、イベントの時間的順序を学習することは、前もって経験から行動の可逆性を推定するために、完全に自己管理的な方法で行うことができる。 0.68
We propose two different strategies that incorporate reversibility in RL agents, one strategy for exploration (RAE) and one strategy for control (RAC). 我々は,rlエージェントに可逆性を含む2つの異なる戦略,1つの探索戦略(rae)と1つの制御戦略(rac)を提案する。 0.76
We demonstrate the potential of reversibility-aware agents in several environments, including the challenging Sokoban game. 本稿では,ソコバンゲームを含む,可逆性を考慮したエージェントの可能性を示す。 0.50
In synthetic tasks, we show that we can learn control policies that never fail and reduce to zero the side-effects of interactions, even without access to the reward function. 合成タスクでは、報酬関数にアクセスしなくても、決して失敗せず、相互作用の副作用をゼロにする制御ポリシーを学習できることが示される。 0.71
1 Introduction We address the problem of estimating if and how easily actions can be reversed in the Reinforcement Learning (RL) context. 1 はじめに 強化学習(Reinforcement Learning, RL)の文脈で, アクションがどの程度容易に逆転できるかを推定する問題に対処する。 0.70
Irreversible outcomes are often not to be taken lightly when making decisions. 不可逆的な結果はしばしば、決定を下す際に軽視されない。 0.57
As humans, we spend more time evaluating the outcomes of our actions when we know they are irreversible [28]. 人間として、行動の結果が不可逆であることを知るのにより多くの時間を費やします [28]。 0.67
As such, irreversibility can be positive (i.e. したがって、不可逆性は正である(すなわち)。 0.65
takes risk away for good) or negative (i.e. 危険を冒す、または負の(すなわち) 0.69
leads to later regret). 後に後悔に繋がる)。 0.72
Also, decision-makers are more likely to anticipate regret for hard-to-reverse decisions [49]. また、意思決定者は困難かつ逆の判断を後悔する傾向が強い[49]。 0.67
All in all, irreversibility seems to be a good prior to exploit for more principled decision-making. 全体として、非可逆性は、より原則化された意思決定のために悪用される前には良いことだと思われる。
訳抜け防止モード: 全体として 不可逆性は より原則化された決定--意思決定のために悪用する前に良いこと。
0.58
In this work, we explore the option of using irreversibility to guide decision-making and confirm the following assertion: by estimating and factoring reversibility in the action selection process, safer behaviors emerge in environments with intrinsic risk factors. 本研究では,非可逆性を用いて意思決定をガイドし,行動選択過程における可逆性を推定・ファクタリングすることにより,本質的なリスク要因を持つ環境に出現する安全な行動について検討する。 0.78
In addition to this, we show that exploiting reversibility leads to more efficient exploration in environments with undesirable irreversible behaviors, including the famously difficult Sokoban puzzle game. さらに, 可逆性の利用は, 難解なソルコバンパズルゲームなど, 好ましくない非可逆的行動を伴う環境において, より効率的な探索に繋がることを示す。 0.71
However, estimating the reversibility of actions is no easy feat. しかし、行動の可逆性の推定は容易ではない。 0.72
It seemingly requires a combination of planning and causal reasoning in large dimensional spaces. 明らかに、大きな次元空間における計画と因果推論の組み合わせを必要とする。 0.72
We instead opt for another, simpler approach (see Fig 1): we propose to learn in which direction time flows between two observations, directly from the agents’ experience, and then consider irreversible the transitions that are assigned a temporal direction with high confidence. その代わりに、別のより単純なアプローチ(図1参照)を選択します: エージェントの経験から直接、2つの観測の間でどの方向が流れるかを学習し、高い信頼性で時間方向を割り当てられた遷移を不可逆的に考えることを提案します。 0.79
In fine, we reduce reversibility to a simple classification task that consists in predicting the temporal order of events. 具体的には,事象の時間順序を予測できる単純な分類タスクへの可逆性を低減する。 0.79
Our contributions are the following: 1) we formalize the link between reversibility and precedence estimation, and show that reversibility can be approximated via temporal order, 2) we propose a practical algorithm to learn temporal order in a self-supervised way, through simple binary classification using 1) 可逆性と先行推定の関係を定式化し, 可逆性は時間順で近似できることを示す。2) 単純二項分類を用いて, 自己教師あり方式で時間順を学習する実用的なアルゴリズムを提案する。 0.76
*Equal contribution. ※同等の貢献。 0.65
英語(論文から抽出)日本語訳スコア
sampled pairs of observations from trajectories, 3) we propose two novel exploration and control strategies that incorporate reversibility, and study their practical use for directed exploration and safe RL, illustrating their relative merits in synthetic as well as more involved tasks such as Sokoban puzzles. トラジェクトリーから採取した2組の観測結果から,可逆性を取り入れた2つの新しい探索・制御戦略を提案し,その実用的利用を指向探索・安全なRLに適用し,それらの相対的メリットを総合的に説明し,ソコバンパズルのようなより関連する課題について考察した。 0.63
2 Related Work To the best of our knowledge, this work is the first to explicitly model the reversibility of transitions and actions in the context of RL, using temporal ordering to learn from trajectories in a selfsupervised way, in order to guide exploration and control. 2 関連作業 我々の知る限りでは、この研究はRLの文脈における遷移と行動の可逆性を明示的にモデル化する最初のものであり、時間的順序付けを用いて自己監督的な方法で軌道から学習し、探索と制御を導く。 0.78
Yet, several aspects of the problem we tackle were studied in different contexts, with other motivations; we review these here. しかし、私たちが取り組んだ問題のいくつかの側面は、他の動機とともに、異なる文脈で研究されました。 0.60
Leveraging reversibility in RL. RLにおける可逆性を活用する。 0.48
Kruusmaa et al [25] estimate the reversibility of stateaction couples so that robots avoid performing irreversible actions, since they are more likely to damage the robot itself or its environment. kruusmaa氏ら[25]は、ステートアクションカップルの可逆性を推定し、ロボットがロボット自体やその環境を傷つけやすいため、不可逆的な行動を起こすのを避ける。 0.76
A shortcoming of their approach is that they need to collect explicit state-action pairs and their reversal actions, which makes it hard to scale to large environments. 彼らのアプローチの欠点は、明示的な状態-作用対とその逆アクションを収集する必要があることである。
訳抜け防止モード: 彼らのアプローチの欠点は、明示的な状態 - アクションペアを収集する必要があることだ。 大規模な環境へのスケールが困難になるのです
0.61
Several works [39, 5, 4] use reachability as a curiosity bonus for exploration: if the current state has a large estimated distance to previous states, it means that it is novel and the agent should be rewarded. いくつかの作品[39, 5, 4]は、探索のための好奇心のボーナスとしてリーチビリティを使用する:現在の状態が以前の状態と推定される距離が大きい場合、それは新規であり、エージェントに報酬を与えることを意味する。 0.62
Reachability and reversibility are related, in the sense that irreversible actions lead to states from which previous states are unreachable. 到達可能性と可逆性は、不可逆的な行動が以前の状態が到達不能な状態につながるという意味で関係している。
訳抜け防止モード: 到達可能性と可逆性は、その意味で関係している 不可逆的な行動は 以前の状態が到達不能な状態につながる
0.66
Nevertheless, their motivations and ours diverge, and we learn reversibility through a less involved task than that of learning reachability. それにもかかわらず、彼らのモチベーションと私たちのモチベーションは多様化し、私たちは学習の到達可能性よりも関与の少ないタスクを通じて可逆性を学びます。 0.47
Nair et al [32] learn to reverse trajectories that start from a goal state so as to generate realistic trajectories that reach similar goals. nairら[32]は、目標状態から始まった逆軌道を学習し、同様の目標に達する現実的な軌道を生成する。 0.75
In contrast, we use reversibility to direct exploration and/or control, not for generating learning data. 対照的に,学習データの生成ではなく,直接探索や制御に可逆性を用いる。 0.81
Closest to our work, Rahaman et al [36] propose to learn a potential function of the states that increases with time, which can detect irreversibility to some extent. 我々の研究に近く、Rahamanら[36]は、時間とともに増加する状態の潜在的な機能を学ぶことを提案し、ある程度の不可逆性を検出することができる。 0.64
A drawback of the approach is that the potential function is learned using trajectories sampled from a random policy, which is a problem for many tasks where a random agent might fail to cover interesting parts of the state space. このアプローチの欠点は、ポテンシャル関数がランダムなポリシーからサンプリングされた軌道を用いて学習されることであり、これはランダムなエージェントが状態空間の興味深い部分をカバーできない可能性のある多くのタスクにとって問題である。 0.69
In comparison, our method does not use a potential function and learns jointly with the RL agent, which makes it a viable candidate for more complex tasks. これに対し,本手法は潜在的な機能を使用しず,rlエージェントと協調して学習し,より複雑なタスクの候補となる。 0.79
Figure 1: High-level illustration of how reversibility can be estimated. 図1: 可逆性の推定方法の高レベルな図示。 0.80
Left: from an understanding of physics. 左:物理学の理解から。 0.72
Right: ours, from experience. 経験から、私たちのもの。 0.59
Safe exploration. Safe exploration aims at making sure that the actions of RL agents do not lead to negative or unrecoverable effects that would outweigh the long-term value of exploration [2]. 安全な探索。 安全な探査は、RLエージェントの作用が、探査の長期的価値を上回りうる負の効果や発見不可能な効果に繋がらないことを確実にすることを目的としている。
訳抜け防止モード: 安全な探索。 安全な探索は、RLエージェントの作用が負の効果や発見不可能な影響を生じさせないようにすることである。 長期にわたる探査の価値を上回ります [2 ]
0.73
Notably, previous works developed distinct approaches to avoid irreversible behavior: by incremental updates to safe policies [22, 17], which requires knowing such a policy in advance; by restricting policy search to ergodic policies [31] (i.e. 従来の研究では, 安全政策の段階的な更新[22, 17], 政策探索をエルゴード政策[31]に制限することなど, 不可逆的な行動を避けるためのアプローチが開発されていた。 0.78
that can always come back to any state visited), which is costly; and by active exploration [27], where the learner can ask for rollouts instead of exploring potentially unsafe areas of the state space itself. これは常に訪問した状態に戻ることができる)、これはコストがかかり、アクティブな探索によって[27]、学習者は国家空間自体の潜在的に安全でない領域を探索する代わりに、ロールアウトを要求することができる。 0.63
Self-supervision from the arrow of time. 時間の矢印からの自己監督。 0.62
Self-supervision has become a central component of modern machine learning algorithms, be it for computer vision, natural language or signal processing. 自己スーパービジョンは、コンピュータビジョン、自然言語、信号処理など、現代の機械学習アルゴリズムの中心的なコンポーネントとなっている。 0.68
In particular, using temporal consistency as a source of self-supervision is now ubiquitous, be it to learn representations for downstream tasks [18, 37, 11], or to learn to detect temporal inconsistencies [46]. 特に、時間的一貫性を自己監督の源として利用することは、下流のタスク [18, 37, 11] の表現を学習したり、時間的不整合を検出すること [46]。 0.67
The closest analogies to our work are methods that specifically estimate some aspects of the arrow of time as self-supervision. 我々の研究に最も近い類似点は、時間矢印のいくつかの側面を自己超越と推定する手法である。 0.57
Most are to be found in the video processing literature, and self-supervised tasks include predicting which way the time flows [34, 46], verifying the temporal order of a subset of frames [29], predicting which video clip has the wrong temporal order among a subset [16] as well as reordering shuffled frames or clips from the video [15, 13, 47]. ほとんどがビデオ処理文献に含まれており、自己監督タスクには、時間の流れ(34,46])の予測、フレーム[29]の部分集合の時間順序の検証、サブセット[16]内の時間順序の誤りの予測、ビデオ[15,13,47]からのシャッフルフレームやクリップの順序変更が含まれる。
訳抜け防止モード: ほとんどがビデオ処理の文献に載っている。 自己管理タスクには、時間の流れの予測を含めます [34, 46 ]。 フレームのサブセット[29]の時間順序を検証する どのビデオクリップが 部分集合 [16 ] の中で間違った時間順を持っている. ビデオからシャッフルされたフレームやクリップを並べ替えることもできます [15, 13, 47 ]
0.76
Bai et al [6] notably propose to combine several of these pretext tasks along with data augmentation for video classification. Bai et al [6] は、ビデオ分類のためのデータ拡張とともに、これらのいくつかのプリテキストタスクを組み合わせることを提案する。
訳抜け防止モード: Bai et al [ 6 ] 顕著な提案 ビデオ分類のためのデータ拡張と、これらいくつかのプレテキストタスクを組み合わせる。
0.66
Using time as a means of supervision was also explored for image sequencing [8], audio [10] or EEG processing [38]. また,画像シークエンシング [8] やオーディオ [10] や脳波処理 [38] において,監視手段としての時間の利用も検討した。 0.77
In RL, self-supervision also gained momentum in recent years [21, 43, 48], with temporal information being featured [1]. RL では近年, 時間情報 [1] を特徴として, 自己超越も勢いを増している(21, 43, 48]。 0.70
Notably, several works [3, 12, 20, 42] leverage temporal consistency to learn useful representations, effectively learning to discriminate between observations that are temporally close and observations that are temporally distant. いくつかの作品[3, 12, 20, 42]は時間的一貫性を利用して有用な表現を学習し、時間的に近い観測と時間的に離れた観察を効果的に区別する。 0.72
In 2 Is A → B reversible?Yes, because B → A does not contradict the laws of physics!Is A → B reversible?Easy, since B → A is as likely as A → B! 院 2 a → b は可逆か?b → a は物理学の法則と矛盾しないから!a → b 可逆か?
訳抜け防止モード: 院 2 a → b は可逆か?b → a は物理学の法則と矛盾しないから!a → b 可逆か? b → a は a → b と同じ確率である。
0.66
英語(論文から抽出)日本語訳スコア
comparison to all these works, we estimate the arrow of time through temporal order prediction with the explicit goal of finding irreversible transitions or actions. これらすべての作業と比較し,時間軸方向の予測を通じて時間の矢印を推定し,不可逆的な遷移や動作を見出すことを目標とした。 0.62
3 Reversibility Degree of Reversibility. 3 可逆性 可逆性 可逆性。 0.60
We start by introducing formally the notion of reversibility. まず、可逆性の概念を正式に導入する。 0.71
Intuitively, an action is reversible if it can be undone, meaning that there is a sequence of actions that can bring us back to the original state. 直感的には、アクションが取り除かれた場合、アクションは可逆的であり、つまり、元の状態に戻れる一連のアクションが存在することを意味する。 0.68
Definition 1. Given a state s, we call degree of reversibility within K steps of an action a 定義1。 状態 s が与えられたとき、アクション a の k ステップ内の可逆性の程度と呼ぶ。 0.69
φK(s, a) := sup π φK(s, a) := sup π 0.93
pπ(s ∈ τt+1:t+K+1 | st = s, at = a), pπ(s ∈ τt+1:t+K+1 | st = s, at = a) 0.84
and the degree of reversibility of an action is defined as 行動の可逆性の程度は 0.35
φ(s, a) := sup φ(s, a) := sup 0.85
π pπ(s ∈ τt+1:∞ | st = s, at = a), π pπ(s ∈ τt+1:∞ | st = s, at = a) 0.92
with τ = {si}i=1 ... T ∼ π corresponding to a trajectory, and τt:t(cid:48) the subset of the trajectory between the timesteps t and t(cid:48) (excluded). τ = {si}i=1 ... t > π が軌道に対応する場合、τt:t(cid:48) は時間ステップ t と t(cid:48) の間の軌道の部分集合である。 0.80
We omit their dependency on π for the sake of conciseness. 我々は簡潔さのために π への依存を省略する。 0.76
Given s ∈ S, the action a is reversible if and only if φ(s, a) = 1, and said irreversible if and only if φ(s, a) = 0. s ∈ S が与えられたとき、作用 a が可逆であることと φ(s, a) = 1 であることと φ(s, a) = 0 であることは同値である。 0.76
In deterministic environments, an action is either reversible or irreversible: given a state-action couple (s, a) and the unique resulting state s(cid:48), φK(s, a) is equal to 1 if there is a sequence of less than K actions which brings the agent from s(cid:48) to s, and is otherwise equal to zero. 状態-作用結合 (s, a) と一意な結果状態 s(cid:48) が与えられたとき、 φk(s, a) が 1 に等しいとき、s(cid:48) から s にエージェントをもたらす k 未満の作用の列が存在するとき、s(cid:48) は 0 に等しい。
訳抜け防止モード: 決定論的環境では、アクションは可逆的か不可逆的か : 状態 - アクションカップル(s, s) a) と一意な結果状態 s(cid:48 ) φk(s,) a) が 1 に等しい場合 s(cid:48 ) から s にエージェントをもたらす k 未満のアクションのシーケンスが存在する。 それ以外は 0 に等しい。
0.76
In stochastic environments, a given sequence of actions can only reverse a transition up to some probability, hence the need for the notion of degree of reversibility. 確率的環境では、与えられた一連の作用は遷移をある確率までしか反転できないため、可逆性の程度の概念が必要となる。 0.71
Policy-Dependent Reversibility. In practice, it is useful to quantify the degree of reversibility of an action as the agent acts according to a fixed policy π, for which we extend the notions introduced above. 政策依存の可逆性。 実際には、エージェントが固定されたポリシー π に従って作用するときの作用の可逆性の度合いを定量化することは有用である。
訳抜け防止モード: 政策依存の可逆性。 実際には、アクションの可逆性の度合いを定量化するのが有用である。 エージェントは固定されたポリシー π に従って作用し、上記の概念を拡張します。
0.57
We simply write : φπ,K(s, a) := pπ(s ∈ τt+1:t+K+1 | st = s, at = a) and φπ(s, a) := pπ(s ∈ τt+1:∞ | st = s, at = a). φπ, K(s, a) := pπ(s ∈ τt+1:t+K+1 | st = s, at = a) と φπ(s, a) := pπ(s ∈ τt+1:∞ | st = s, at = a) と書く。 0.93
It immediately follows that φK(s, a) = supπ φπ,K(s, a) and φ(s, a) = supπ φπ(s, a). 即ち、φK(s, a) = supπ φπ, K(s, a) と φ(s, a) = supπ φπ(s, a) が従う。 0.89
4 Reversibility Estimation via Classification 4 分類による可逆性推定 0.77
Quantifying the exact degree of reversibility of actions is generally hard. アクションの正確な可逆性の度合いの定量化は一般的に難しい。 0.69
In this section, we show that reversibility can be approximated efficiently using simple binary classification. 本稿では,単純なバイナリ分類を用いて可逆性を効率的に近似できることを示す。 0.71
4.1 Precedence Estimation Supposing that a trajectory contains the states s and s(cid:48), we want to be able to establish precedence, that is predicting whether s or s(cid:48) comes first on average. 4.1 軌道が s と s(cid:48)を含むことを仮定して、我々は、 s と s(cid:48) が平均的に優先されるかどうかを予測する優先性を確立したい。 0.70
It is a binary classification problem, which これは二分分類の問題であり 0.72
consists in estimating the quantity Est=s,st(cid:48) =s(cid:48)(cid:2)1t(c id:48)>t Est=s,st(cid:48) =s(cid:48)(cid:2)1t(c id:48)>t 0.72
(cid:3). Accordingly, we introduce the precedence (cid:3)。 そこで 優先事項を紹介します 0.70
estimator which, using a set of trajectories, learns to predict which state of an arbitrary pair is most likely to come first. estimatorは、一連のトラジェクタを使って、任意のペアのどの状態が優先されるかを予測する。
訳抜け防止モード: 一連の軌跡を用いて推定する。 任意のペアのどの状態が最初に現れるかを予測することを学びます。
0.68
Definition 2. Given a fixed policy π, we define the finite-horizon precedence estimator between two states as follows: 定義2。 固定ポリシー π が与えられたとき、2つの状態の間の有限水平先行推定器を次のように定義する。 0.64
(cid:2)1t(cid:48)> ;t (cid:2)1t(cid:48)> ;t 0.78
(cid:3). ψπ,T (s, s(cid:48)) = Eτ∼π Est=s,st(cid:48) =s(cid:48) t,t(cid:48)<T (cid:3)。 s, s(cid:48)) = Eτ π Est=s,st(cid:48) =s(cid:48) t,t(cid:48)<T 0.78
Conceptually, given two states s and s(cid:48), the precedence estimator gives an approximate probability of s(cid:48) being visited after s, given that both s and s(cid:48) are observed in a trajectory. 概念的には、2つの状態 s と s(cid:48) が与えられると、s と s(cid:48) の両方が軌道上で観測されていることから、優先推定子は s(cid:48) の近似確率を与える。 0.71
The indices are sampled uniformly within the specified horizon T ∈ N, so that this quantity is well-defined even for infinite trajectories. 指数は指定された地平線 T ∈ N 内で一様にサンプリングされるので、この量は無限軌跡に対しても十分に定義される。 0.62
Additional properties of ψ, regarding transitivity for instance, can be found in Appx. 例えば、推移性に関する ψ のさらなる性質は appx で見ることができる。 0.64
A.2. Remark 1. The quantity ψπ,T (s, s(cid:48)) is only defined for pairs of states which can be found in the same trajectory, and is otherwise irrelevant. A.2。 備考1。 π,T (s, s(cid:48)) の量は、同じ軌道にある状態のペアに対してのみ定義されるが、そうでなければ無関係である。 0.61
In what follows, we implicitly impose this condition when considering state pairs. 以下では、状態対を考えるときに暗黙的にこの条件を課す。 0.69
3 3 0.85
英語(論文から抽出)日本語訳スコア
Theorem 1. For every policy π and s, s(cid:48) ∈ S, ψπ,T (s, s(cid:48)) converges when T goes to infinity. 理論1。 任意のポリシー π と s に対して s(cid:48) ∈ S は、T が無限大に進むときに s(cid:48) は収束する。 0.66
We refer to the limit as the precedence estimator, written ψπ(s, s(cid:48)). 極限を優先順位推定子 (precedence estimator) と呼び、ππ(s, s(cid:48)) と書く。 0.65
The proof of this theorem is developed in Appendix A.3. この定理の証明は Appendix A.3 で開発されている。 0.67
This result is key to ground theoretically the notion of empirical reversibility ¯φ, which we introduce in the next definition. この結果は、次の定義で紹介する経験的可逆性 φ の概念を理論的に基礎づける鍵となる。 0.75
It simply consists in extending the notion of precedence to a state-action pair. 単に優先順位の概念を状態-作用対に拡張するだけである。 0.64
Definition 3. We finally define the empirical reversibility using the precedence estimator: 定義3。 最後に先行推定器を用いて経験的可逆性を定義する。 0.66
¯φπ(s, a) = Es(cid:48)∼P (s,a) φπ(s, a) = Es(cid:48) =P(s,a) 0.84
(cid:2)ψπ(s(cid:48), s)(cid:3). (cid:2)ππ(s(cid:48), s)(cid:3)。 0.84
In a nutshell, given that we start in s and take the action a, the empirical reversibility ¯φπ(s, a) measures the probability that we go back to s, starting from a state s(cid:48) that follows (s, a). 一言で言えば、我々が s で始まり、作用 a を取ることを仮定すると、経験的可逆性 ππ(s, a) は、次の (s, a) 状態 s(cid:48) から s に戻る確率を測定する。 0.74
We now show that our empirical reversibility is linked with the notion of reversibility defined in the previous section, and can behave as a useful proxy. 現在、経験的可逆性は、前節で定義された可逆性の概念と結びついており、有用なプロキシとして振る舞うことができる。 0.62
4.2 Estimating Reversibility from Precedence 4.2 優先から可逆性の推定 0.63
2 . We present here our main theoretical result which relates reversibility and empirical reversibility: Theorem 2. 2 . ここでは可逆性と経験的可逆性に関連する主要な理論結果を示す。 0.78
Given a policy π, a state s and an action a, we have: ¯φπ(s, a) ≥ φπ(s,a) The full proof of the theorem is given in Appendix A.3. ポリシー π 、状態 s および作用 a が与えられたとき、以下が成り立つ: シュφπ(s, a) ≥ φπ(s, a) この定理の完全な証明は Appendix A.3 で与えられる。 0.83
This result theoretically justifies the name of empirical reversibility. この結果は理論的に経験的可逆性の名前を正当化する。 0.52
From a practical perspective, it provides a way of using ¯φ to detect actions which are irreversible or hardly reversible: ¯φπ(s, a) (cid:28) 1 implies φπ(s, a) (cid:28) 1 and thus provides a sufficient condition to detect actions with low degrees of reversibility. 実用的な観点からは、可逆性や可逆性がほとんどないアクションを検出するために φ を使おうという方法を提供する: sππ(s, a) (cid:28) 1 は φπ(s, a) (cid:28) 1 を意味するので、可逆性の低いアクションを検出するのに十分な条件を提供する。 0.66
This result gives a way to detect actions that are irreversible given a specific policy followed by the agent. この結果は、エージェントが従う特定のポリシーによって不可逆なアクションを検出する手段を与える。 0.73
Nevertheless, we are generally interested in knowing if these actions are irreversible for any policy, meaning φ(s, a) (cid:28) 1 with the definition of Section 3. それでも、これらのアクションが任意のポリシーに対して不可逆であるかどうか、つまり、セクション3の定義を持つφ(s, a) (cid:28) 1 について、一般に興味がある。 0.61
The next proposition makes an explicit connection between ¯φπ and φ, under the assumption that the policy π is stochastic. 次の命題は、ポリシー π が確率的であるという仮定の下で、 φπ と φ の間の明示的な接続を成す。 0.61
Proposition 1. We suppose that we are given a state s, an action a such that a is reversible in K steps, and a policy π. 命題1。 我々は、状態 s と作用 a が K ステップで可逆であるような作用 a とポリシー π を与えられると仮定する。 0.61
Under the assumption that π is stochastic enough, meaning that there exists ρ > 0 such that for every state and action s, a, π(a | s) > ρ, we have: ¯φπ(s, a) ≥ ρK 2 . π が十分に確率的であるという仮定の下では、すべての状態 s と作用 s, a, π(a | s) > ρ に対して、次のようになる。
訳抜け防止モード: π が十分確率的であるという仮定の下で、つまりすべての状態に対して ρ > 0 が存在することを意味する そして作用 s, a, π(a | s ) > ρ, σππ(s , a ) ≥ ρk 2 である。
0.85
Moreover, we have for all K ∈ N: ¯φπ(s, a) ≥ ρK The proof is given in Appendix A.4. さらに、すべての K ∈ N に対して φπ(s, a) ≥ ρK の証明は Appendix A.4 で与えられる。 0.78
As before, this proposition gives a practical way of detecting irreversible moves. 前述のように、この命題は不可逆な動きを検出する実践的な方法を与える。 0.56
If for example ¯φπ(s, a) < ρk/2 for some k ∈ N, we can be sure that action a is not reversible in k steps. 例えば、ある k ∈ N に対して φπ(s, a) < ρk/2 であるなら、作用 a が k ステップで可逆でないことは確実である。 0.69
The quantity ρ can be understood as a minimal probability of taking any action in any state. 量 ρ は任意の状態において何らかの作用を取る最小の確率と解釈できる。 0.72
This condition is not very restrictive: -greedy strategies for example satisfy this hypothesis with ρ = |A|. この条件はあまり制限的ではなく、例えば ρ = ρ|A| でこの仮説を満たす。 0.70
In practice, it can also be useful to limit the maximum number of time steps between two sampled states. 実際には、2つのサンプル状態間の時間ステップの最大数を制限するのにも有用である。 0.74
That is why we also define the windowed precedence estimator as follows: Definition 4. そのため、ウィンドウ付き優先順位推定器も次のように定義しています。 0.67
Given a fixed policy π, we define the windowed precedence estimator between two states as follows: 固定ポリシー π が与えられたとき、2つの状態の間の窓付き優先順位推定器を次のように定義する。 0.56
2 φK(s, a). ψπ,T,w(s, s(cid:48)) = Eτ∼πEst=s,st(cid:48) =s(cid:48) t,t(cid:48)<T |t−t(cid:48)|≤w 2 φK(s,a。 ππ,t,w(s, s(cid:48)) = eτπest=s,st(cid:48) =s(cid:48) t,t(cid:48)<t |t−t(cid:48)|بw 0.74
(cid:2)1t(cid:48)> ;t (cid:2)1t(cid:48)> ;t 0.78
(cid:3). Intuitively, compared to previous precedence estimators, ψπ,T,w is restricted to short-term dynamics, which is a desirable property in tasks where distinguishing the far future from the present is either trivial or impossible. (cid:3)。 直感的には、以前の先行推定値と比較すると、ππ,t,w は短期的ダイナミクスに制限され、これは現在から遠い未来を区別するタスクでは望ましい性質である。 0.75
5 Reversibility-Aware Reinforcement Learning 5 可逆性を考慮した強化学習 0.51
Leveraging the theoretically-ground ed bridge between precedence and reversibility established in the previous section, we now explain how reversibility can be learned from the agent’s experience and used in a practical setting. 前節で確立した優先性と可逆性の間の理論的根拠の橋を生かして,エージェントの経験から可逆性を学び,実用的な環境で利用する方法について説明する。 0.71
4 4 0.85
英語(論文から抽出)日本語訳スコア
Figure 2: The proposed self-supervised procedure for precedence estimation. 図2: 優先順位推定のための自己監督手順の提案。 0.67
Learning to rank events chronologically. 年順にイベントをランク付けする学習。 0.53
Learning which observation comes first in a trajectory is achieved by binary supervised classification, from pairs of observations sampled uniformly in a sliding window on observed trajectories. 軌道上で最初に観測される学習は、観測軌跡上のスライドウインドウで一様にサンプリングされた観測の対から二分分類によって達成される。 0.76
This can be done fully offline, i.e. これは完全にオフラインで実行できます。 0.81
using a previously collected dataset of trajectories for instance, or fully online, i.e. 例えば、以前に収集した軌跡のデータセット、または完全なオンライン、すなわち、 0.66
jointly with the learning of the RL agent; but also anywhere on the spectrum by leveraging variable amounts of offline and online data. RLエージェントの学習と共同で、オフラインおよびオンラインデータのさまざまな量を活用することで、スペクトル上のどこにでもある。 0.65
This procedure is not without caveats. この手順は注意すべき点がないわけではない。 0.40
In particular, we want to avoid overfitting to the particularities of the behavior of the agent, so that we can learn meaningful, generalizable statistics about the order of events in the task at hand. 特に、エージェントの動作の特異性に過度に適合しないようにし、手前のタスクにおけるイベントの順序に関する有意義で一般化可能な統計を学習できるようにしたい。 0.71
Indeed, if an agent always visits the state sa before sb, the classifier will probably assign a close-to-one probability that sa precedes sb. 実際、エージェントが常にsbの前に状態saを訪れている場合、分類器はおそらくsaがsbに先行する1対1の確率を割り当てる。 0.65
This might not be accurate with other agents equipped with different policies, unless transitioning from sb to sa is hard due to the dynamics of the environment, which is in fact exactly the cases we want to uncover. これは、sbからsaへの遷移が環境のダイナミクスのために困難でない限り、異なるポリシーを備えた他のエージェントでは正確ではないかもしれません。
訳抜け防止モード: これは、異なるポリシーを備えた他のエージェントでは正確ではないかもしれません。 sbからSAに移行しない限り 環境のダイナミクスが原因で 難しいのです 実際 明らかにしたいケースです
0.72
We make several assumptions about the agents we apply our method to: 1) agents are learning and thus, have a policy that changes through interactions in the environment, 2) agents have an incentive not to be too deterministic. 1) エージェントは学習中であり, 環境の相互作用を通じて変化する方針を持っている, 2) エージェントは決定論的でないインセンティブを持っている, である。
訳抜け防止モード: 我々は,本手法を適用したエージェントについていくつかの仮定を行う:1 )エージェントが学習している 環境の相互作用を通じて変化する政策を とっています 2) エージェントには, あまり決定論的でないインセンティブがある。
0.76
For this second assumption, we typically use an entropic regularization in the chosen RL loss, which is a common design choice in modern RL methods. この第2の仮定では、選択されたRL損失のエントロピー正則化を用いるのが一般的であり、これは現代のRL法では共通の設計選択である。 0.66
These assumptions, when put together, alleviate the risk of overfitting to the idiosyncrasies of a single, non-representative policy. これらの仮定をまとめると、単一の非表現的政策の慣用的条件に過度に適合するリスクが軽減される。 0.64
We illustrate the precedence classification procedure in Fig 2. 図2の優先分類手順について説明する。 0.76
A temporally-ordered pair of observations, distant of no more than w timesteps, is sampled from a trajectory and uniformly shuffled. 時間順に並べられた一対の観測は、w時間ステップ以下で、軌道からサンプリングされ、一様シャッフルされる。 0.66
The result of the shuffling operation is memorized and used as a target for the binary classification task. シャッフル動作の結果は記憶され、バイナリ分類タスクのターゲットとして使用される。 0.65
A Siamese network creates separate embeddings for the pair of observations, which are concatenated and fed to a separate feed-forward network, whose output is passed through a sigmoid to obtain a probability of precedence. シームズネットワークは、一対の観測のために別々の埋め込みを生成し、これらを結合して別のフィードフォワードネットワークに供給し、その出力がシグモイドを通過して優先の確率を得る。 0.76
This probability is updated via negative log-likelihood against the result of the shuffle, so that it matches the actual temporal order. この確率はシャッフルの結果に対する負のログ類似性によって更新され、実際の時間順に一致する。 0.72
Then, a transition (and its implicit sequence of actions) represented by a starting observation x and a resulting observation x(cid:48) is deemed irreversible if the estimated precedence probability ψ(x, x(cid:48)) is superior to a chosen threshold β. すると、開始観測 x と結果観測 x(cid:48) で表される遷移(およびその暗黙の行動列)は、推定された優先確率 >(x, x(cid:48)) が選択されたしきい値 β よりも優れていると判断される。 0.78
Note that we do not have to take into account the temporal proximity of these two observations here, which is a by-product of sampling observations uniformly in a window in trajectories. ここではこれら2つの観測の時間的近接を考慮に入れる必要はなく、これは軌跡の窓に一様にサンプリングされた観測の副産物である。 0.87
Also, depending on the threshold β, we cover a wide range of scenarios, from pure irreversibility (β close to 1) to soft irreversibility (β > 0.5, the bigger β, the harder the transition is to reverse). また、しきい値βによっては、純粋な非可逆性(βは1に近い)からソフトな可逆性(β > 0.5、大きいほど遷移が逆になる)まで幅広いシナリオをカバーしている。 0.71
This is useful because different tasks call for different levels of tolerance for irreversible behavior: while a robot getting stuck and leading to an early experiment failure is to be avoided when possible, tasks involving human safety might call for absolute zero tolerance for irreversible decision-making. ロボットが立ち往生し、初期の実験失敗につながることは、可能であれば避けなければならないが、人間の安全に関わるタスクは、不可逆的な意思決定に対して絶対的なゼロ寛容を求めるかもしれない。 0.63
We elaborate on these aspects in Sec. 我々はこれらの点についてsecで詳しく説明する。 0.38
6. Reversibility-Aware Exploration and Control. 6. 可逆性の探索と制御。 0.74
We propose two different algorithms based on reversibility estimation: Reversibility-Aware Exploration (RAE) and Reversibility-Aware Control (RAC). 可逆性探索(RAE)と可逆性認識制御(RAC)の2つの異なるアルゴリズムを提案する。 0.71
We give a high-level representation of how the two methods operate in Fig 3. 2つのメソッドがFig 3でどのように動作するかを示す。 0.63
In a nutshell, RAE consists in using the estimated reversibility of a pair of consecutive observations to create an auxiliary reward function. 簡単に言うと、RAEは2つの連続する観測の可逆性を推定し、補助的な報酬関数を生成する。 0.63
In our experiments, the reward function is a piecewise linear function of the estimated reversibility and a fixed threshold, as in Fig 3: it grants the agent a negative reward if the transition is deemed too hard to reverse. 我々の実験では、報酬関数は推定可逆性と固定しきい値の分割線形関数であり、図3に示すように、遷移が反転しにくいと見なされる場合、エージェントに負の報酬を与える。 0.76
The agent optimizes the sum of the extrinsic エージェントはextrinsicの合計を最適化する 0.78
5 ObservationShuffleEm beddingConcatJoint EmbeddingTemporal Order Probability= random order from shuffle, acts as target 5 ObservationShuffleEm beddingConcatJoint EmbeddingTemporal Order Probability= random order from shuffle, act as target 0.71
英語(論文から抽出)日本語訳スコア
Figure 3: Our proposed methods for reversibility-aware RL. 図3: reversibility-aware rlのための提案手法 0.81
(a): RAE encourages reversible behavior via auxiliary rewards. (a):RAEは補助報酬を通じて可逆行動を促す。 0.71
(b): RAC avoids irreversible behavior by rejecting actions whose estimated reversibility is inferior to a threshold. (b)RACは、推定可逆性が閾値に劣る動作を拒絶することにより、不可逆行動を避ける。 0.64
and auxiliary rewards. Note that the specific function we use penalizes irreversible transitions but could encourage such transitions instead, if the task calls for it. 補助的な報酬も 私たちが使用する特定の関数は、不可逆な遷移をペナルティ化するが、タスクがそれを要求する場合、代わりにそのような遷移を促進できる。 0.61
RAC can be seen as the action-conditioned counterpart of RAE. RACはRAEの行動条件であると見なすことができる。 0.67
From a single observation, RAC estimates the degree of reversibility of all available actions, and “takes control” if the action sampled from the policy is not reversible enough (i.e. 単一の観察から、RACは利用可能なすべてのアクションの可逆性の度合いを推定し、ポリシーからサンプリングされたアクションが十分に可逆的でない場合、制御を取る。 0.73
has a reversibility inferior to a threshold β). 閾値βに劣る可逆性を有する)。 0.62
“Taking control” can have many forms. テイキングコントロール」には様々な形態がある。 0.55
In practice, we opt for rejection sampling: we sample from the policy until an action that is reversible enough is sampled. 実際には、リジェクションサンプリングを選択します: ポリシーから、十分に可逆的なアクションがサンプリングされるまでサンプリングします。
訳抜け防止モード: 実際には 拒絶のサンプルを選べば :ポリシーから十分な可逆性を持つアクションがサンプル化されるまでのサンプルを採取する。
0.73
This strategy has the advantage of avoiding irreversible actions entirely, while trading-off pure reversibility for performance when possible. この戦略は、可能ならばパフォーマンスに対して純粋な可逆性をトレードオフしながら、不可逆的な動作を完全に避けるという利点がある。
訳抜け防止モード: この戦略は 取引の間、完全に不可逆的なアクションを避ける - 可能であれば、純粋な可逆性から抜け出す。
0.54
RAC is more involved than RAE, since the action-conditioned reversibility is learned from the supervision of a standard, also learned precedence estimator. RACは、標準の監督から行動条件の可逆性を学習するため、RAEよりも関与している。
訳抜け防止モード: RACは、標準の監督から条件付き可逆性を学ぶため、RAEよりも関与している。 先行推定器も習った
0.60
Nevertheless, our experiments show that it is possible to learn both estimators jointly, at the cost of little overhead. しかし, 実験の結果, 両推定器を共同で学習することができ, オーバーヘッドが少ないことがわかった。 0.69
We now discuss the relative merits of the two methods. この2つの手法の相対的なメリットについて論じる。 0.56
In terms of applications, we argue that RAE is more suitable for directed exploration, as it only encourages reversible behavior. 応用の観点からは、RAEは可逆的行動のみを促進するため、直接探査に適していると論じる。 0.62
As a result, irreversible behavior is permitted if the benefits (i.e. 結果として、利益(すなわち)が得られれば不可逆的な行動が許される。 0.57
rewards) outweigh the costs (i.e. 報酬) 費用(すなわち)を上回っます 0.64
irreversibility penalties). In contrast, RAC shines in safety-first, real-world scenarios, where irreversible behavior is to be banned entirely. 不可逆罰) 対照的に、RACは安全第一の現実世界のシナリオで輝き、不可逆的な行動は完全に禁止される。 0.57
With an optimal precedence estimator and task-dependent threshold, RAC will indeed hijack all irreversible sampled actions. 最適な優先順位推定器とタスク依存しきい値によって、RACは実際にはすべての不可逆的なサンプルアクションをハイジャックする。 0.50
RAC can be especially effective when pre-trained on offline trajectories: it is then possible to generate fully-reversible, safe behavior from the very first online interaction in the environment. RACはオフラインの軌道上で事前訓練された場合、特に効果的であり、環境における最初のオンラインインタラクションから完全に可逆的で安全な振る舞いを生成することができる。 0.64
We explore these possibilities experimentally in Sec. 我々はこれらの可能性を実験的にsecで探る。 0.50
6.2. Both algorithms can be used online or offline with small modifications to their overall logic. 6.2. どちらのアルゴリズムも、全体のロジックを小さな変更で、オンラインでもオフラインでも使用できる。 0.64
The pseudo-code for the online version of RAE and RAC can be found in Appendix B.2. オンライン版のRAEとRACの擬似コードはAppendix B.2にある。 0.66
The self-supervised precedence classification task could have applications beyond estimating the reversibility of actions: it could be used as a means of getting additional learning signal or representational priors for the RL algorithm. 自己教師付き事前分類タスクは、アクションの可逆性を推定する以上の応用が可能であり、rlアルゴリズムで追加の学習信号や表現優先を得る手段として使用できる。
訳抜け防止モード: 自己監督型優先順位分類タスクは、行動の可逆性の推定を超えて応用できる RLアルゴリズムの学習信号や表現的先行値を取得する手段として使用できる。
0.78
Nevertheless, we opt for a clear separation between the reversibility and the RL components so that we can precisely attribute improvements to the former, and leave aforementioned studies for future work. それにもかかわらず、我々は、可逆性とRLコンポーネントの明確な分離を選択し、前者の改善を正確に評価し、前述の研究を将来の研究に残すことができる。 0.69
6 Experiments The following experiments aim at demonstrating that the estimated precedence ψ is a good proxy for reversibility, and at illustrating how beneficial reversibility can be in various practical cases. 6 実験 以下の実験は、推定された優先性 ψ が可逆性のよい指標であることを実証し、様々な実例において可逆性がいかに有益であるかを示すことを目的としている。 0.68
We benchmark RAE and RAC on a diverse set of environments, with various types of observations (tabular, pixel-based), using neural networks for function approximation. raeとracを様々な環境でベンチマークし、様々な種類の観測(表型、ピクセル型)をニューラルネットワークを用いて関数近似に用いた。 0.72
See Appendix C for details. 詳細はAppendix Cを参照。 0.81
6.1 Reward-Free Reinforcement Learning 6.1 Reward-free Reinforcement Learning 0.65
We illustrate the ability of RAE to learn sensible policies without access to rewards. RAEが報酬にアクセスできることなく、賢明な政策を学ぶ能力について説明する。 0.60
We use the classic pole balancing task Cartpole [7], using the OpenAI Gym [9] implementation. OpenAI Gym [9] 実装を使用して、古典的なポールバランスタスク Cartpole [7] を使用します。 0.75
In the usual 6 DegreeofReversibilit y.Rejectionsampling( a)RAE penalizes irreversible transitionsConcatTem poral Order Probability(b) RAC hijacks irreversible actions いつものように 6 DegreeofReversibilit y.Rejectionsampling( a)RAEは可逆遷移を罰するConcatTemporal Order Probability(b)RACは可逆作用をハイジャックする 0.69
英語(論文から抽出)日本語訳スコア
(a) Training curves (b) Relative pole coordinates (a)訓練曲線 (b)相対極座標 0.76
(c) Random trajectories Figure 4: (a): Training curves of a PPO+RAE agent in reward-free Cartpole. (c)ランダム軌道 図4: (a): ppo+raeエージェントの報酬フリーカートポールでのトレーニング曲線。 0.75
Blue: episode length. blue: エピソードの長さ。 0.77
Red: intrinsic reward. A 95% confidence interval over 10 random seeds is shown. 赤:本質的な報酬。 10個のランダム種子に対する95%の信頼区間を示す。 0.75
(b): The x and y axes are the coordinates of the end of the pole relatively to the cart position. (b): x と y の軸は、棒の端がカートの位置に対して相対的に座標である。 0.84
The color denotes the online reversibility estimation between two consecutive states (logit scale). 色は、2つの連続した状態(ロジットスケール)間のオンライン可逆性推定を表す。 0.70
(c): The representation of three random trajectories according to θ (angle of the pole) and dθ dt . (c): θ(極の角)と dθ dt による3つのランダムな軌道の表現。 0.80
Arrows are colored according to the learned reversibility of the transitions they correspond to. 矢印は、それらに対応する遷移の学習可逆性に応じて色付けされる。 0.70
setting, the agent gets a reward of 1 at every time step, such that the total undiscounted episode reward is equal to the episode length, and incentivizes the agent to learn a policy that stabilizes the pole. 設定すると、エージェントは各ステップ毎に1の報酬を受け取り、合計未計算のエピソード報酬がエピソードの長さに等しいようにして、エージェントにポールを安定化させるポリシーを学ぶインセンティブを与える。 0.73
Here, instead, we remove this reward signal and give a PPO agent [41] an intrinsic reward based on the estimated reversibility, which is learned online from agent trajectories. そこで我々は,この報奨信号を除去し,エージェント軌跡からオンラインで学習した推定可逆性に基づいて本質的な報酬を与える[41]。 0.67
The reward function penalizes irreversibility, as shown in Fig 3. 報酬関数は、図3に示すように、不可逆性を罰する。 0.68
Note that creating insightful rewards is quite difficult: too frequent negative rewards could lead the agent to try and terminate the episode as soon as possible. あまりにも頻繁なネガティブな報酬は、エージェントができるだけ早くエピソードを終了させるように仕向ける可能性がある。
訳抜け防止モード: 洞察力のある報酬を生み出すことは極めて難しいことに注意。 否定的な報酬が多すぎると、エージェントはできるだけ早くエピソードを終わらせようとする。
0.60
We display our results in Fig 4. 結果は図4に示します。 0.67
Fig 4a confirms the claim that RAE can be used to learn meaningful rewards. 図4aは、RAEが意味のある報酬を学ぶのに使えるという主張を確認している。 0.51
Looking at the intrinsic reward, we discern three phases. 本質的な報酬を見れば、3つの相が分かる。 0.57
Initially, both the policy and the reversibility classifier are untrained (and intrinsic rewards are 0). 最初は、ポリシーと可逆性分類器の両方が訓練されていない(内在的な報酬は0)。 0.62
In the second phase, the classifier is fully trained but the agent still explores randomly (intrinsic rewards become negative). 第2フェーズでは、分類器は完全に訓練されるが、エージェントはランダムに探索する(イントリンシックな報酬は負になる)。 0.58
Finally, the agent adapts its behavior to avoid penalties (intrinsic rewards go to 0, and the length of trajectories increases). 最後に、エージェントはペナルティを避けるためにその振舞いを適応させる(イントリンシックな報酬は0となり、軌道長が増加する)。 0.62
Our reward-free agent reaches the score of 200, which is the highest possible score. 報酬のないエージェントは200点に達します。 0.35
To further assess the quality of the learned reversibility, we freeze the classifier after 300k timesteps and display its predicted probabilities according to the relative coordinates of the end of the pole (Fig. 学習した可逆性の品質をさらに評価するため,300k時間経過後に分類器を凍結し,その予測確率を極の端の相対座標に従って表示する(図)。 0.79
4b) and the dynamics of the angle of the pole θ (Fig. 4b)および極θの角度のダイナミクス(図)。 0.69
4c). In both cases, the empirical reversibility matches our intuition: the reversibility should decrease as the angle or angular momentum increase, since these coincide with an increasing difficulty to go back to the equilibrium. 4c)であった。 どちらの場合も、経験的可逆性は我々の直観と一致する: 可逆性は、角度や角運動量の増加とともに減少するべきである。
訳抜け防止モード: 4c)であった。 いずれの場合も経験的可逆性は直観と一致し、角度や角運動量が増えるにつれて可逆性は減少する。 これらは平衡状態に戻ることの困難さと一致している。
0.59
6.2 Learning Reversible Policies 6.2 可逆政策の学習 0.67
In this section, we investigate how RAE can be used to learn reversible policies. 本稿では,RAEを用いて可逆政策を学習する方法について検討する。 0.69
When we train an agent to achieve a goal, we usually want it to achieve that goal following implicit safety constraints. エージェントを訓練して目標を達成する場合、通常、暗黙の安全制約に従ってその目標を達成することを望んでいます。
訳抜け防止モード: 目標を達成するためにエージェントを訓練する場合、通常は 暗黙の安全制約に従って その目標を達成するためです
0.75
Handcrafting such safety constraints would be time-consuming, difficult to scale for complex problems, and might lead to reward hacking; so a reasonable proxy consists in limiting irreversible side-effects in the environment [26]. このような安全上の制約を手作業で処理するのは時間を要するし、複雑な問題に対してスケールするのが難しく、ハッキングに報いる可能性がある。 0.44
To quantify side-effects, we propose Turf, a new synthetic environment. 副作用の定量化を目的として,新しい合成環境であるTurfを提案する。 0.55
As depicted in Fig 5a,5b, the agent (blue) is rewarded when reaching the goal (pink). 図5a,5bに示すように、エージェント(青)はゴール(ピンク)に達すると報酬を受ける。 0.73
Stepping on grass (green) will spoil it, causing it to turn brown. 草(緑)を踏むと腐り、茶色になる。 0.47
Stepping on the stone path (grey) does not induce any side-effect. 石の道(グレー)を踏むと副作用は起こらない。 0.63
In Fig 5c,5d, we compare the behaviors of a trained PPO agent with and without RAE. In Fig 5c,5d, we compare the behaviors of a trained PPO agent with and without RAE。 0.88
The baseline agent is indifferent to the path to the goal, while the agent benefitting from RAE learns to follow the road, avoiding irreversible consequences. ベースラインエージェントはゴールへの経路に無関心であり、RAEから恩恵を受けるエージェントは、不可逆的な結果を避けるために、道を辿ることを学ぶ。
訳抜け防止モード: ベースラインエージェントはゴールへのパスに無関心です。 RAEから恩恵を受けるエージェントが道を辿ることを学び、不可逆的な結果を避ける。
0.60
6.3 Sokoban Sokoban is a popular puzzle game where a warehouse keeper (controlled by the player) must move boxes around and place them in dedicated places. 6.3ソコバン 箱番(そこばん)とは、倉庫主(プレイヤー)が箱を動かして専用の場所に置かなければならないパズルゲームである。 0.57
Each level is unique and involves planning, since there are many ways to get stuck. それぞれのレベルはユニークなもので、立ち往生する多くの方法があるため、計画が必要になります。 0.62
For instance, pushing a box against a wall is often un-undoable, and prevents the completion of the level unless actually required to place the box on a specific target. 例えば、箱を壁に押し付けることはしばしば不可能であり、箱を特定のターゲットに配置する必要がなければ、レベルが完成するのを防ぐ。 0.74
Sokoban is a challenge to current model-free RL algorithms, as advanced agents require Sokobanは、高度なエージェントが必要とするモデルレスRLアルゴリズムへの挑戦 0.79
7 024timesteps (1e5)50100150200epis ode length202intrinsic reward0.20.00.2x0.97 0.980.991.00y - 0.9 - 0.7 - 0.3 - 0.1 - 0.01 - 0.0010.20.10.00.10.2 21012d/dt 7 024 timesteps (1e5)50100150200epis ode length 202intrinsic reward0.20.00.2x0.97 0.980.991.00y - 0.9 - 0.7 - 0.3 - 0.1 - 0.01 - 0.0010.20.10.221012d /dt 0.60
英語(論文から抽出)日本語訳スコア
(a) Initial state (b) A trajectory (a)初期状態 (b)軌道 0.72
(c) PPO (500k) (c)PPO(500k) 0.91
(d) PPO+RAE (500k) (d)PPO+RAE(500k) 0.81
Figure 5: (a): The Turf environment. 図5: (a): 芝の環境。 0.60
The agent can walk on grass, but the grass then turns brown. エージェントは草の上を歩けるが、草は茶色になる。 0.59
(b): An illustrative trajectory where the agent stepped on grass pixels. (b):エージェントが草のピクセルを踏む図示的軌跡。 0.73
(c): State visitation heatmap for PPO. (c) PPOの国家訪問ヒートマップ。 0.64
(d): State visitation heatmap for PPO+RAE. (d):PPO+RAEの国家訪問ヒートマップ。 0.74
It coincides with the stone path (red). 石の道(赤)と一致する。 0.61
Figure 6: (a): Non-trivial reversibility: pushing the box against the wall can be reversed by pushing it to the left, going around, pushing it down and going back to start. 図6: (a): 非自明な可逆性: ボックスを壁に押すことは、それを左に押して、周りを回して、押し下げて、最初に戻すことで反転することができる。 0.80
A minimum of 17 moves is required to go back to the starting state. 開始状態に戻るには最低17回の移動が必要となる。 0.77
(b): Performances of IMPALA and IMPALA+RAE on 1k levels of Sokoban (5 seeds average). (b):ソコバンの1kレベルのIMPALAとIMPALA+RAEの成績(5種平均)。 0.76
(c): Evolution of the estimated reversibility along one episode. (c)一つのエピソードに沿った推定可逆性の進化。 0.71
millions of interactions to reliably solve a fraction of levels [45, 19]. 何百万もの相互作用が ある程度のレベル[45, 19]を確実に解決します 0.70
One of the reasons for this is tied to exploration: since agents learn from scratch, there is a long preliminary phase where they act randomly in order to explore the different levels. エージェントはゼロから学習するため、異なるレベルを探索するためにランダムに行動する長い予備段階が存在する。
訳抜け防止モード: この理由の1つは探検に関係しています infoq: エージェントはスクラッチから学ぶので、長い予備段階があります。 異なるレベルを探索するためにランダムに振る舞う。
0.61
During this phase, the agent will lock itself in unrecoverable states many times, and further exploration is wasted. この段階では、エージェントは何度も回復不能な状態に閉じ込められ、さらなる調査は無駄になる。 0.61
It is worth recalling that contrary to human players, the agent does not have the option to reset the game when stuck. 人間のプレイヤーとは対照的に、エージェントは立ち往生したときにゲームをリセットするオプションがないことを思い出しておきたい。 0.71
In these regards, Sokoban is a great testbed for reversibility-aware approaches, as we expect them to make the exploration phase more efficient, by incorporating the prior that irreversible transitions are to be avoided if possible, and by providing tools to identify such transitions. これらの点において、sokobanは、可逆的な遷移を可能であれば避け、そのような遷移を識別するためのツールを提供することにより、探索段階をより効率的にすることを期待する、可逆性認識アプローチのための優れたテストベッドである。 0.66
We benchmark performance on a set of 1k levels. 私たちは1kレベルのパフォーマンスをベンチマークします。 0.63
Results are displayed in Fig 6. 結果は図6に表示される。 0.84
Equipping an IMPALA agent [14] with RAE leads to a visible performance increase, and the resulting agent consistently solves all levels from the set. IMPALAエージェント[14]をRAEで取得すると、目に見えるパフォーマンスが向上し、結果として、エージェントがセットからすべてのレベルを一貫して解決する。
訳抜け防止モード: IMPALAエージェント[14 ]をRAEで取得すると、目に見えるパフォーマンスが向上する。 結果のエージェントは 集合から全てのレベルを 常に解決します
0.71
We take a closer look at the reversibility estimates and show that they match the ground truth with high accuracy, despite the high imbalance of the distribution (i.e. 可逆性の推定をよく見て、分布の不均衡(すなわち分布の不均衡)にもかかわらず、それらが基底真理と高い精度で一致することを示す。 0.67
few irreversible transitions, see Fig 6c) and complex reversibility estim ation (see Fig 6a). 可逆遷移がほとんどない(図6c参照)と複素可逆エスティム化(図6a参照)。 0.84
6.4 Safe Control In this section, we put an emphasis on RAC, which is particularly suited for safety related tasks. 6.4 安全制御 本稿では,安全関連タスクに特に適したRACに注目した。 0.65
Cartpole+. We use the standard Cartpole environment, except that we change the maximum number of steps from 200 to 50k to study long-term policy stability. Cartpole+ 標準のカルトポール環境は、長期の政策安定性を研究するため、最大ステップ数を200から50kに変更する以外は使用しています。 0.71
We name this new environment Cartpole+. この新しい環境を cartpole+ と名付けます。 0.68
It is substantially more difficult than the initial setting. 初期設定よりもかなり難しい。 0.46
We learn reversibility offline, using trajectories collected from a random policy. ランダムなポリシーから収集した軌道を用いて,可逆性をオフラインで学習する。 0.59
Fig 7a shows that a random policy augmented with RAC achieves seemingly infinite scores. 図7aは、RACで拡張されたランダムなポリシーが、一見無限のスコアを達成することを示している。 0.43
For the sake of comparison, we indicate that a DQN [30] and the state-of-the-art M-DQN [44] achieve a maximum score of respectively 1152 and 2801 under a standard training procedure, described in Appendix C.5. 比較のために、dqn[30]と最先端m-dqn[44]は、付録c.5に記載された標準訓練手順でそれぞれ1152,2801の最大スコアを達成したことを示す。 0.67
This can be surprising, since RAC was only trained on random thus short trajectories (mean length of 20). RACはランダムに短い軌道(平均長さ20)でしか訓練されていないので、これは驚くべきことである。 0.63
We illustrate the predictions of our learned estimator in Fig 7b,7c. 図7b,7cにおける学習推定器の予測について述べる。 0.55
When the pole leans to the left (x < 0), we can see that moving the 極が左に傾くとき(x < 0)、それが動くのを見ることができます。 0.69
8 pushmovemovepushmove ➀➁➂➃➄ 8 pushmovemovepushmove 0.84
英語(論文から抽出)日本語訳スコア
(a) Trajectory lengths (b) Coordinates: action 0 (a)軌跡の長さ (b)座標:アクション0 0.76
(c) Coordinates: action 1 (c)座標:アクション1 0.75
Figure 7: (a): Mean score of a random policy augmented with RAC on Cartpole+ for several threshold values, with 95% confidence intervals over 10 random seeds (log scale). 図7: (a): 10個のランダム種子(ログスケール)に対して95%の信頼区間を持つ、いくつかのしきい値に対してカートポール+にRACを付加したランダムポリシーの平均スコア。 0.73
(b) and (c): The x and y axes are the coordinates of the end of the pole relatively to the cart position. b) と (c): x と y の軸は、ポールの端がカートの位置に対して相対的に座標である。 0.80
The color indicates the estimated reversibility values. 色は推定可逆性値を示す。 0.78
cart to the left is perceived as more reversible than moving it to the right. 左のカートは右に移動するよりも可逆性が高いと感じます。 0.76
This is key to the good performance of RAC and perfectly on par with our understanding of physics: when the pole is leaning in a direction, agents must move the cart in the same direction to stabilize it. ポールが傾いているとき、エージェントはカートを安定させるために同じ方向に移動させなければなりません。
訳抜け防止モード: これはracの優れた性能の鍵であり、物理学の理解と完全に一致している ポールが傾いているとき、エージェントはカートを同じ方向に動かさなければならない 安定させるためです
0.72
Turf. We now illustrate how RAC can be used for safe online learning: the implicitly safe constraints provided by RAC prevent policies from deviating from safe trajectories. Turf RACが提供する暗黙的に安全な制約は、ポリシーが安全な軌道から逸脱することを防ぐ。
訳抜け防止モード: Turf 安全なオンライン学習にRACをどのように利用できるかを説明する。 RACが提供する暗黙的に安全な制約は、ポリシーが安全な軌道から逸脱することを防ぐ。
0.55
This ensures for example that agents stay in recoverable zones during exploration. これは例えば、探索中にエージェントが回復可能なゾーンに留まることを保証する。 0.55
We learn the reversibility estimator offline, using the trajectories of a random policy. ランダムポリシーの軌道を用いて,可逆性推定器をオフラインで学習する。 0.71
We reject actions whose reversibility is deemed inferior to β = 0.2, and train a PPO agent with RAC. 可逆性が β = 0.2 より劣ると考えられる作用を拒絶し、RAC で PPO エージェントを訓練する。 0.74
As displayed in Fig 8, PPO with RAC learns to reach the goal without causing any irreversible side-effect (i.e. 図8に示すように、RACを持つPPOは、不可能な副作用(すなわち)を引き起こすことなくゴールに到達することを学習する。 0.53
stepping on grass) during the whole training process. 草を踏む) トレーニングプロセス全体を通して。 0.77
The threshold β is a very important parameter of the algorithm. しきい値βはアルゴリズムの非常に重要なパラメータである。 0.91
Too low a threshold could lead to overlooking some irreversible actions, while a high threshold could prevent the agent from learning the new task at hand. しきい値が低すぎると、いくつかの不可逆的なアクションが見過ごされ、高い閾値はエージェントが手元にある新しいタスクを学習するのを防ぐ可能性がある。
訳抜け防止モード: しきい値が低すぎると、いくつかの不可逆的なアクションを見落としてしまう可能性がある。 高い閾値で エージェントが新しいタスクを 学習するのを防げる
0.65
We discuss this performance/safety trade-off in more details in Appendix. 我々は、このパフォーマンス/セーフティのトレードオフを appendix でより詳細に議論する。 0.51
C.7. 7 Conclusion Figure 8: PPO and RAC (solid lines) vs PPO (dashed lines). C.7。 7 結論 図8:PPOとRAC(固形線)対PPO(破線)。 0.66
At the cost of slower learning (brown), our approach prevents the agent from producing a single irreversible (green) during the learning phase. 学習を遅くするコスト(ブラウン)では、学習期間中にエージェントが単一の可逆性(グリーン)を発生させない。
訳抜け防止モード: 学習を遅くするコスト(茶色)で、我々のアプローチはエージェントを阻止する。 学習期間中に単一の可逆性(緑色)を生み出すこと。
0.69
Curves are averaged over 10 runs. 曲線は平均して10ラン以上である。 0.58
side-effect In this work, we formalized the link between the reversibility of transitions and their temporal order, which inspired a self-supervised procedure to learn the reversibility of actions from experience. 副作用 本研究では,トランジッションの可逆性と時間的順序の関係を定式化し,経験から行動の可逆性を学ぶための自己教師あり手順を導いた。 0.65
In combination with two novel reversibility-aware exploration strategies, RAE for directed exploration and RAC for directed control, we showed the empirical benefits of our approach in various scenarios, ranging from safe RL to risk-averse exploration. 2つの新しい可逆性対応探索戦略、指向性探索のためのRAEと指向性制御のためのRACを組み合わせることで、安全なRLからリスク回避探索まで、さまざまなシナリオにおいて、我々のアプローチの実証的なメリットを示した。
訳抜け防止モード: 2つの新しい可逆性 -意識的な探査戦略- 指向制御のためのRACでは,様々なシナリオにおいて,アプローチの実証的メリットを示しました。 安全なRLからリスクまで。
0.75
Notably, we demonstrated increased performance in procedurally-generat ed Sokoban puzzles, which we tied to more efficient exploration. 特に,より効率的な探索に結びついた手続き的に生成したソルコバンパズルの性能向上を実証した。 0.65
Broader impact and ethical considerations. 幅広い影響と倫理的考察。 0.70
The presented work aims at estimating and controlling potentially irreversible behaviors in RL agents. 本研究は,rlエージェントの可逆的動作を推定し,制御することを目的とした。 0.49
We think it has interesting applications in safety-first scenarios, where irreversible behavior or side-effects are to be avoided. 安全優先のシナリオでは、不可逆的な振る舞いや副作用を避けることが求められます。 0.61
The societal implication of these effects would be safer interactions with RL-powered components (e g robots, virtual assistants, recommender systems) which, though rare today, could become the norm. これらの効果の社会的意味は、RLを動力とするコンポーネント(例えばロボット、仮想アシスタント、レコメンダシステム)とのより安全な相互作用である。 0.59
We argue that further research and applications should verify that the induced reversible behavior holds in almost all situations and does not lead to unintended effects. さらなる研究と応用は、誘導された可逆的行動がほぼすべての状況で持続し、意図しない影響をもたらすものではないことを検証すべきである。 0.65
9 0.10.150.20.250.30.3 50.4 threshold 102103104score0.20.0 0.2x0.970.980.991.00 y - 0.5 - 0.1 - 0.01 - 0.0010.20.00.2x0.970 .980.991.00y - 0.5 - 0.1 - 0.01 - 0.00102468timesteps (1e4)051015spoiled grassPPO + RACPPO0.50.60.70.80. 91.0reward 9 0.10.150.20.250.30.3 50.4 threshold 102103104score0.20.2 x0.970.980.991.00y - 0.5 - 0.1 - 0.01 - 0.0010.2x0.970.980.9 91.00y - 0.5 - 0.1 - 0.01 - 0.00102468 timesteps (1e4)051015spoiled grassPPO + RACPPO0.50.60.70.90. 91.0reward 0.58
英語(論文から抽出)日本語訳スコア
References [1] A. Amiranashvili, A. Dosovitskiy, V. Koltun, and T. Brox. 参考文献[1] a. amiranashvili, a. dosovitskiy, v. koltun, t. brox 0.78
Motion perception in reinforcement learning with dynamic objects. 補強筋の運動知覚 動的オブジェクトによる学習。 0.78
In Conference on Robot Learning, 2018. 2018年 - ロボット学習会議開催。 0.65
[2] D. Amodei, C. Olah, J. Steinhardt, P. F. Christiano, J. Schulman, and D. Mané. [2] D. Amodei, C. Olah, J. Steinhardt, P. F. Christiano, J. Schulman, D. Mané 0.95
Concrete problems in AI safety. コンクリート AIの安全性の問題。 0.74
arXiv preprint arXiv:1606.06565, 2016. arXiv preprint arXiv:1606.06565, 2016 0.79
[3] Y. Aytar, T. Pfaff, D. Budden, T. L. Paine, Z. Wang, and N. de Freitas. Y. Aytar, T. Pfaff, D. Budden, T. L. Paine, Z. Wang, N. de Freitas. 0.90
Playing hard exploration games by watching youtube. 厳しい探検をする youtube視聴によるゲーム。 0.71
In Advances in Neural Information Processing Systems, 2018. ニューラル情報処理システム(2018)の進歩 0.57
[4] A. P. Badia, B. Piot, S. Kapturowski, P. Sprechmann, A. Vitvitskyi, Z. D. Guo, and C. Blundell. A. P. Badia, B. Piot, S. Kapturowski, P. Sprechmann, A. Vitvitskyi, Z. D. Guo, C. Blundell. 0.93
Agent57: Outperforming the atari human benchmark. agent57: atari human benchmarkよりも優れています。 0.62
In International Conference on Machine Learning, 2020. 機械学習に関する国際会議、2020年。 0.74
[5] A. P. Badia, P. Sprechmann, A. Vitvitskyi, D. Guo, B. Piot, S. Kapturowski, O. Tieleman, M. Arjovsky, A. Pritzel, A. Bolt, et al Never give up: Learning directed exploration strategies. A.P. Badia, P. Sprechmann, A. Vitvitskyi, D. Guo, B. Piot, S. Kapturowski, O. Tieleman, M. Arjovsky, A. Pritzel, A. Bolt, et al Never 氏は次のように述べている。 0.83
In International Conference on Learning Representations, 2020. 2020年、国際学習表現会議に参加。 0.78
[6] Y. Bai, H. Fan, I. Misra, G. Venkatesh, Y. Lu, Y. Zhou, Q. Yu, V. Chandra, and A. Yuille. Y. Bai, H. Fan, I. Misra, G. Venkatesh, Y. Lu, Y. Zhou, Q. Yu, V. Chandra, A. Yuille 0.89
arXiv preprint arXiv プレプリント 0.83
Can temporal information help with contrastive self-supervised learning? 時間的情報は対照的な自己教師付き学習に役立つか? 0.58
arXiv:2011.13046, 2020. arXiv:2011.13046, 2020 0.71
[7] A. G. Barto, R. S. Sutton, and C. W. Anderson. A. G. Barto, R. S. Sutton, C. W. Anderson. 0.84
Neuronlike adaptive elements that can solve difficult learning control problems. 難解な学習制御問題を解決するニューロンのような適応要素。 0.68
In IEEE Transactions on Systems, Man, and Cybernetics, 1983. IEEE Transactions on Systems, Man, and Cybernetics』1983年。 0.76
[8] T. Basha, Y. Moses, and S. Avidan. [8]T.バシャ、Y.モーゼス、S.アビダン。 0.67
Photo sequencing. 写真のシーケンシング。 0.71
In European Conference on Computer 欧州コンピュータ会議において 0.91
Vision, 2012. 2012年、ビジョン。 0.86
[9] G. Brockman, V. Cheung, L. Pettersson, J. Schneider, J. Schulman, J. Tang, and W. Zaremba. 9] G. Brockman, V. Cheung, L. Pettersson, J. Schneider, J. Schulman, J. Tang, W. Zaremba。 0.94
Openai gym, 2016. 2016年オープンジム。 0.62
URL http://arxiv.org/abs /1606.01540. URL http://arxiv.org/abs /1606.01540 0.46
[10] A. N. Carr, Q. Berthet, M. Blondel, O. Teboul, and N. Zeghidour. A. N. Carr, Q. Berthet, M. Blondel, O. Teboul, N. Zeghidour. 0.86
Self-supervised learning of audio representations from permutations with differentiable ranking. 異なるランキングを持つ順列からの音声表現の自己教師付き学習 0.66
In IEEE Signal Processing Letters, 2021. IEEE Signal Processing Letters、2021年。 0.71
[11] R. Dadashi, L. Hussenot, M. Geist, and O. Pietquin. [11]R.ダダシ、L. Hussenot、M. Geist、O. Pietquin。 0.73
Primal wasserstein imitation learning. 初等wasserstein模倣学習。 0.61
In International Conference on Learning Representations, 2020. 院 International Conference on Learning Representations, 2020参加。 0.65
[12] D. Dwibedi, J. Tompson, C. Lynch, and P. Sermanet. 12] D. Dwibedi, J. Tompson, C. Lynch, P. Sermanet. 0.88
Learning actionable representations from 行動可能な表現を学習する 0.57
visual observations. In International Conference on Intelligent Robots and Systems, 2018. 視覚観察。 International Conference on Intelligent Robots and Systems, 2018(英語) 0.76
[13] A. El-Nouby, S. Zhai, G. W. Taylor, and J. M. Susskind. A. El-Nouby, S. Zhai, G. W. Taylor, J. M. Susskind. 0.86
Skip-clip: Self-supervised spatiotemporal representation learning by future clip order ranking. Skip-clip: 将来のクリップオーダーランキングによる自己教師付き時空間表現学習。 0.55
arXiv preprint arXiv:1910.12770, 2019. arXiv preprint arXiv:1910.12770, 2019 0.81
[14] L. Espeholt, H. Soyer, R. Munos, K. Simonyan, V. Mnih, T. Ward, Y. Doron, V. Firoiu, T. Harley, I. Dunning, et al Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures. 14] L. Espeholt氏, H. Soyer氏, R. Munos氏, K. Simonyan氏, V. Mnih氏, T. Ward氏, Y. Doron氏, V. Firoiu氏, T. Harley氏, I. Dunning氏, al Impala氏。
訳抜け防止モード: [14 ]L. Espeholt, H. Soyer, R. Munos, K. Simonyan, V. Mnih, T. Ward, Y. Doron V. Firoiu, T. Harley, I. Dunning, et al Impala : 重み付けされたアクターを持つスケーラブル分散層 - 学習者アーキテクチャ
0.81
In International Conference on Machine Learning, 2018. 2018年、international conference on machine learningにて発表。 0.80
[15] B. Fernando, E. Gavves, J. M. Oramas, A. Ghodrati, and T. Tuytelaars. B. Fernando, E. Gavves, J. M. Oramas, A. Ghodrati, T. Tuytelaars. 0.84
Modeling video evolution for action recognition. 行動認識のためのビデオ進化のモデル化 0.74
In Conference on Computer Vision and Pattern Recognition, 2015. 2015年、コンピュータビジョンとパターン認識会議に参加。 0.79
[16] B. Fernando, H. Bilen, E. Gavves, and S. Gould. B. Fernando, H. Bilen, E. Gavves, S. Gould. 0.76
Self-supervised video representation learning with odd-one-out networks. 奇数ワンアウトネットワークを用いた自己教師付きビデオ表現学習 0.52
In Conference on Computer Vision and Pattern Recognition, 2017. 2017年、コンピュータビジョンとパターン認識に関する会議。 0.79
[17] J. García and F. Fernández. J. GarcíaとF. Fernández。 0.63
Safe exploration of state and action spaces in reinforcement learning. 強化学習における状態と行動空間の安全な探索 0.82
Journal of Artificial Intelligence Research, 2012. 人工知能研究雑誌、2012年。 0.56
[18] R. Goroshin, J. Bruna, J. Tompson, D. Eigen, and Y. LeCun. [18]R・ゴローシン、J・ブルーナ、J・トンプソン、D・エイゲン、Y・ルクン。 0.57
Unsupervised learning of spatiotemporally coherent metrics. 教師なしの学習 時空間的コヒーレントなメトリクス。 0.51
In International Conference on Computer Vision, 2015. 2015年、国際コンピュータビジョン会議に参加。 0.82
[19] A. Guez, M. Mirza, K. Gregor, et al An investigation of model-free planning. A. Guez, M. Mirza, K. Gregor, et al A investigation of model-free planning。 0.81
In International Conference on Machine Learning, 2019. 海外では 2019年、機械学習に関する会議。 0.72
[20] Z. D. Guo, M. G. Azar, B. Piot, B. 20] z. d. guo, m. g. azar, b. piot, b. 0.82
A. Pires, and R. Munos. A. Pires、R. Munos。 0.84
Neural predictive belief representa- 神経予測的信念の表出- 0.57
tions. arXiv preprint arXiv:1811.06407, 2018. イオンだ arXiv preprint arXiv:1811.06407, 2018 0.53
[21] Z. D. Guo, B. [21]Z.D.Guo, B。 0.82
A. Pires, B. Piot, J.-B. A. Pires, B. Piot, J.-B 0.85
Grill, F. Altché, R. Munos, and M. G. Azar. Grill, F. Altché, R. Munos, M. G. Azar 0.93
Bootstrap latentpredictive representations for multitask reinforcement learning. マルチタスク強化学習のためのブートストラップ潜在予測表現 0.60
In International Conference on Machine Learning, 2020. 機械学習に関する国際会議、2020年。 0.74
10 10 0.85
英語(論文から抽出)日本語訳スコア
[22] A. Hans, D. Schneegaß, A. M. Schäfer, and S. Udluft. A. Hans, D. Schneegaß, A. M. Schäfer, S. Udluft. 0.79
Safe exploration for reinforcement 補強のための安全探査 0.68
learning. In European Symposium on Artificial Neural Networks, 2008. 学ぶこと。 2008年、欧州人工ニューラルネットワークシンポジウムにて発表。 0.69
[23] M. Hoffman, B. Shahriari, J. Aslanides, G. Barth-Maron, et al Acme: A research framework 23] m. hoffman, b. shahriari, j. aslanides, g. barth-maron, et al acme: a research framework 0.74
for distributed reinforcement learning. 分散強化学習のためのものです 0.58
arXiv preprint arXiv:2006.00979, 2020. arXiv preprint arXiv:2006.00979, 2020 0.81
[24] D. P. Kingma and J. Ba. [24]D.P.キングマとJ.バ 0.78
Adam: A method for stochastic optimization. Adam: 確率最適化の方法です。 0.69
Conference on Learning Representations, 2015. 学習表現に関する会議, 2015年。 0.84
In International [25] M. Kruusmaa, Y. Gavshin, and A. Eppendahl. 海外では [25]M.Kruusmaa、Y.Gavshin、A.Eppendahl。 0.64
Don’t do things you can’t undo: Reversibility models for generating safe behaviours. 実行できないことをするな:安全な振る舞いを生成するための可逆性モデル。 0.68
In International Conference on Robotics and Automation, 2007. 2007年、ロボティクスとオートメーションに関する国際会議を開催。 0.77
[26] J. Leike, M. Martic, V. Krakovna, P. A. Ortega, T. Everitt, A. Lefrancq, L. Orseau, and S. Legg. J. Leike, M. Martic, V. Krakovna, P. A. Ortega, T. Everitt, A. Lefrancq, L. Orseau, S. Legg. 0.92
AI safety gridworlds. AI安全グリッドワールド。 0.82
arXiv preprint arXiv:1711.09883, 2017. arXiv preprint arXiv:1711.09883, 2017 0.79
[27] O.-A. Maillard, T. Mann, R. Ortner, and S. Mannor. [27]-A。 Maillard、T. Mann、R. Ortner、S. Mannor。 0.79
Active Rollouts in MDP with Irreversible 非可逆性MDPにおけるアクティブロールアウト 0.53
Dynamics. Hal preprint hal-02177808, 2019. ダイナミクス。 Hal preprint hal-02177808, 2019 0.80
[28] D. W. McAllister, T. R. Mitchell, and L. R. Beach. 28] d・w・マカリスター、t・r・ミッチェル、l・r・ビーチ 0.62
The contingency model for the selection of decision strategies: An empirical test of the effects of significance, accountability, and reversibility. 意思決定戦略の選択のための並行性モデル: 重要性、説明可能性、可逆性の効果の実証テスト。 0.72
In Organizational Behavior and Human Performance, 1979. 1979年 - 組織行動と人間パフォーマンス。 0.67
[29] I. Misra, C. L. Zitnick, and M. Hebert. I. Misra, C. L. Zitnick, M. Hebert. 0.70
Shuffle and learn: unsupervised learning using temporal shuffle and learn:unsupervised learning using temporal 0.83
order verification. In European Conference on Computer Vision, 2016. 注文確認 2016年、欧州コンピュータビジョン会議に参加。 0.63
[30] V. Mnih, K. Kavukcuoglu, D. Silver, A. [30] V. Mnih, K. Kavukcuoglu, D. Silver, A。 0.95
A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis. A. Rusu, J. Veness, M. G. Bellemare, A. Graves, M. Riedmiller, A. K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I. Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, D. Hassabis。 0.88
Human-level control through deep reinforcement learning. 深層強化学習による人間レベルの制御 0.82
Nature, 2015. [31] T. M. Moldovan and P. Abbeel. 2015年、自然。 31] t. m. moldovan と p. abbeel。 0.75
Safe exploration in markov decision processes. マルコフ決定プロセスにおける安全な探索。 0.68
In International Conference on Machine Learning, 2012. 海外では 機械学習に関するカンファレンス、2012年。 0.68
[32] S. Nair, M. Babaeizadeh, C. Finn, S. Levine, and V. Kumar. [32] S. Nair, M. Babaeizadeh, C. Finn, S. Levine, V. Kumar. 0.95
Time reversal as self-supervision. 自己超越としての時間逆転。 0.48
In International Conference on Robotics and Automation, 2020. ロボティクスとオートメーションに関する国際会議、2020年。 0.75
[33] J. R. Norris. 33] j・r・ノリス 0.51
Markov chains. Cambridge series in statistical and probabilistic mathematics. マルコフ連鎖。 統計および確率数学におけるケンブリッジ級数。 0.68
Cambridge University Press, 1998. 1998年、ケンブリッジ大学教授。 0.60
ISBN 978-0-521-48181-6. ISBN 978-0-521-48181-6。 0.39
[34] L. C. Pickup, Z. Pan, D. Wei, Y. C. Shih, C. Zhang, A. Zisserman, B. Scholkopf, and W. T. Freeman. [34] L. C. Pickup, Z. Pan, D. Wei, Y. C. Shih, C. Zhang, A. Zisserman, B. Scholkopf, W. T. Freeman。 0.87
Seeing the arrow of time. In Conference on Computer Vision and Pattern Recognition, 2014. 時間の矢印を見る。 2014年、コンピュータビジョンとパターン認識会議に参加。 0.74
[35] A. Raffin, A. Hill, M. Ernestus, A. Gleave, A. Kanervisto, and N. Dormann. A. Raffin, A. Hill, M. Ernestus, A. Gleave, A. Kanervisto, N. Dormann. 0.84
Stable baselines3. 安定ベースラインs3。 0.57
https://github.com/D LR-RM/stable-baselin es3, 2019. https://github.com/D LR-RM/stable-baselin es3, 2019 0.43
[36] N. Rahaman, S. Wolf, A. Goyal, R. Remme, and Y. Bengio. N. Rahaman, S. Wolf, A. Goyal, R. Remme, Y. Bengio. 0.78
Learning the arrow of time for problems in reinforcement learning. 強化学習における問題に対する時間的矢印の学習。 0.76
In International Conference on Learning Representations, 2020. 2020年、国際学習表現会議に参加。 0.78
[37] V. Ramanathan, K. Tang, G. Mori, and L. Fei-Fei. [37] V. Ramanathan, K. Tang, G. Mori, L. Fei-Fei. 0.88
Learning temporal embeddings for complex 複素数に対する時間的埋め込みの学習 0.56
video analysis. In International Conference on Computer Vision, 2015. ビデオ分析。 2015年、国際コンピュータビジョン会議に参加。 0.79
[38] A. Saeed, D. Grangier, O. Pietquin, and N. Zeghidour. [38] a. saeed, d. grangier, o. pietquin, n. zeghidour。 0.86
Learning from heterogeneous eeg signals with differentiable channel reordering. チャネル再順序の異なる異種エレグ信号からの学習 0.62
In International Conference on Acoustics, Speech and Signal Processing, 2020. 音響・音声・信号処理国際会議(2020年)に参加して 0.76
[39] N. Savinov, A. Raichuk, R. Marinier, D. Vincent, M. Pollefeys, T. Lillicrap, and S. Gelly. 39]N. Savinov, A. Raichuk, R. Marinier, D. Vincent, M. Pollefeys, T. Lillicrap, S. Gelly。 0.93
Episodic curiosity through reachability. 到達性によるエピソードな好奇心。 0.42
In International Conference on Learning Representations, 2019. International Conference on Learning Representations, 2019に参加。 0.86
[40] M.-P. B. Schrader. 40]m.-p.b.シュレイダー 0.55
gym-sokoban. https://github.com/m pSchrader/gym-sokoba n, 2018. 体育ソコバン。 https://github.com/m pSchrader/gym-sokoba n, 2018。 0.46
[41] J. Schulman, F. Wolski, P. Dhariwal, A. Radford, and O. Klimov. J. Schulman, F. Wolski, P. Dhariwal, A. Radford, O. Klimov. 0.80
Proximal policy optimization algorithms. 近い政策最適化 アルゴリズム。 0.72
arXiv preprint arXiv:1707.06347, 2017. arXiv preprint arXiv:1707.06347, 2017 0.79
[42] P. Sermanet, C. Lynch, Y. Chebotar, J. Hsu, E. Jang, S. Schaal, S. Levine, and G. Brain. [42]P. Sermanet, C. Lynch, Y. Chebotar, J. Hsu, E. Jang, S. Schaal, S. Levine, G. Brain。 0.91
Timecontrastive networks: Self-supervised learning from video. timecontrastive network: ビデオからの自己教師付き学習。 0.74
In International Conference on Robotics and Automation, 2018. ロボティクスとオートメーションに関する国際会議、2018年。 0.71
[43] A. Srinivas, M. Laskin, and P. Abbeel. 43] A. Srinivas, M. Laskin, P. Abbeel 0.78
Curl: Contrastive unsupervised representations for Curl: 対照的に教師なし表現 0.63
reinforcement learning. In International Conference on Machine Learning, 2020. 強化学習。 機械学習に関する国際会議、2020年。 0.71
11 11 0.85
英語(論文から抽出)日本語訳スコア
[44] N. Vieillard, O. Pietquin, and M. Geist. 44] N. Vieillard, O. Pietquin, M. Geist. 0.84
Munchausen reinforcement learning. Munchausen 強化学習。 0.75
In Advances in Neural Information Processing Systems, 2020. 進歩の中で 神経情報処理システム、2020年。 0.72
[45] T. Weber, S. Racanière, D. P. Reichert, L. Buesing, A. Guez, D. J. Rezende, A. P. Badia, Imagination-augmente d agents for deep reinforcement [45] T. Weber, S. Racanière, D. P. Reichert, L. Buesing, A. Guez, D. J. Rezende, A. P. Badia, Imagination-augmente d agent for deep reinforcement 0.86
O. Vinyals, N. Heess, Y. Li, et al learning. O. Vinyals, N. Heess, Y. Li, et al learning。 0.95
In Advances in Neural Information Processing Systems, 2017. 2017年、ニューラル・インフォメーション・プロセッシング・システム(Neural Information Processing Systems, 2017)。 0.60
[46] D. Wei, J. J. Lim, A. Zisserman, and W. T. Freeman. 46]D. Wei, J. J. Lim, A. Zisserman, W. T. Freeman 0.92
Learning and using the arrow of time. 学習と時間の矢印の使用。 0.70
In Conference on Computer Vision and Pattern Recognition, 2018. 院 コンピュータビジョンとパターン認識に関する会議、2018年。 0.65
[47] D. Xu, J. Xiao, Z. Zhao, J. Shao, D. Xie, and Y. Zhuang. 47] d. xu, j. xiao, z. zhao, j. shao, d. xie, y. zhuang。 0.77
Self-supervised spatiotemporal learning via video clip order prediction. ビデオクリップ順序予測による自己教師付き時空間学習 0.63
In Conference on Computer Vision and Pattern Recognition, 2019. 2019年、コンピュータビジョンとパターン認識に関する会議。 0.78
[48] D. Yarats, R. Fergus, A. Lazaric, and L. Pinto. [48]D. Yarats、R. Fergus、A. Lazaric、L. Pinto。 0.79
Reinforcement learning with prototypical 原型を用いた強化学習 0.76
representations. In International Conference on Machine Learning, 2021. 表現。 国際機械学習会議(2021年)に参加。 0.67
[49] M. Zeelenberg. 49] M. Zeelenberg. 0.81
Anticipated regret, expected feedback and behavioral decision making. 後悔、期待されたフィードバック、行動的な意思決定。 0.57
In Journal of Behavioral Decision Making, 1999. 院 行動意思決定雑誌、1999年。 0.56
12 12 0.85
英語(論文から抽出)日本語訳スコア
We organize the supplementary material as follows: in Appendix A, we include the proofs of results from the main text, as well as additional formalism; in Appendix B, we provide additional details about the proposed algorithms, including pseudo-code and figures that did not fit in the main text; and in Appendix C, we detail our experimental procedure, including hyperparameters for all methods/ 補足資料を整理する: アペンディックスAでは、本文からの結果の証明と追加の形式主義を含む; アペンディックスBでは、本文に適合しない擬似コードや図形を含む提案されたアルゴリズムについて、さらに詳細を提供する; アペンディックスCでは、すべてのメソッド//に対するハイパーパラメータを含む実験手順を詳述する。
訳抜け防止モード: 補足資料の整理は以下の通りである。 : Appendix A では、本文の結果の証明に加えて、追加の形式主義 ; Appendix B, 提案するアルゴリズムについて,本文に適合しない擬似コードや図形など,さらに詳細な情報を提供する。 Appendix C では、すべてのメソッドに対するハイパーパラメータを含む実験手順について詳述します。
0.83
A Mathematical Elements and Proofs A.1 Possible Definitions of Reversibility 数学的要素と証明 A.1 可逆性の定義の可能性 0.65
In this section, we present several intuitive definitions of reversibility in MDPs. 本稿では,MDPにおける可逆性の定義について述べる。 0.67
We chose the third definition as our reference, which we argue presents several advantages over the others, although they can be interesting in specific contexts. 我々は3つ目の定義を参照として選択し、他の定義よりもいくつかの利点があると主張している。 0.71
Indeed, Eq (3) is simpler than Eq (1), as it does not depends on the discount factor, and more general than Eq (2), as it does not enforce a fixed number of timesteps for going back to the starting state. 実際、eq (3) は eq (1) よりも単純であり、これは値引き係数に依存しず、eq (2) よりも一般的であるため、開始状態に戻るための一定の時間ステップを強制しない。 0.74
Discounted Reward. Fixed Time Step. 割引報酬。 タイムステップの修正。 0.63
φπ,K(s, a) := φπ,K(s, a) := 0.93
φπ(s, a) := φπ(s, a) := 0.94
K(cid:88) ∞(cid:88) K(cid:88)∞(cid:88) 0.80
k>t k>t γk−tpπ(st+k = s | st = s, at = a) , k>t。 k>t。 γk−tpπ(st+k = s | st = s, at = a) , 0.87
γk−tpπ(st+k = s | st = s, at = a). γk−tpπ(st+k = s | st = s, at = a)。 0.83
φπ,K(s, a) := sup k≤K φπ(s, a) := sup k∈N φπ,K(s, a) := sup k≤K φπ(s, a) := sup k∂N 0.94
pπ(st+k = s | st = s, at = a) , pπ(st+k = s | st = s, at = a). pπ(st+k = s | st = s, at = a) , pπ(st+k = s | st = s, at = a)。 0.97
(1) (2) (3) (1) (2) (3) 0.85
Undiscounted Reward. Rewardとは別人。 0.49
φπ,K(s, a) := φπ,K(s, a) := 0.93
K(cid:88) ∞(cid:88) K(cid:88)∞(cid:88) 0.80
k=1 pπ(st+k = s, st+k−1 (cid:54)= s, . k=1 pπ(st+k = s, st+k−1 (cid:54)= s, 。 0.64
. . , st+1 (cid:54)= s | st = s, at = a) , . . , st+1 (cid:54)= s | st = s, at = a) , 0.89
= pπ(s ∈ τt+1:t+K+1 | st = s, at = a) . pπ(s ∈ τt+1:t+K+1 | st = s, at = a) である。 0.77
φπ(s, a) := φπ(s, a) := 0.94
pπ(st+k = s, st+k−1 (cid:54)= s, . pπ(st+k = s, st+k−1 (cid:54)= s, 。 0.70
. . , st+1 (cid:54)= s | st = s, at = a) , . . , st+1 (cid:54)= s | st = s, at = a) , 0.89
k=1 = pπ(s ∈ τt+1:∞ | st = s, at = a). k=1 pπ(s ∈ τt+1:∞ | st = s, at = a)。 0.77
A.2 Additional Properties We write s → s(cid:48) if ψπ(s, s(cid:48)) ≥ 0.5 ("it is more likely to go from s to s(cid:48) than to go from s(cid:48) to s") and s ⇒ s(cid:48) if ψπ(s, s(cid:48)) = 1 ("it is possible to go from s to s(cid:48), but it is not possible to come back to s from s(cid:48)"). A.2 付加的な性質 s → s(cid:48) if sπ(s, s(cid:48)) ≥ 0.5(s(cid:48) から s(cid:48) へ進む確率が s(cid:48) より高く、s は s(cid:48) から s(cid:48) へ戻る確率が高い) if sπ(s, s(cid:48)) = 1(s(cid:48) から s(cid:48) へ戻ることは不可能である。 0.86
1. ψπ(s, s(cid:48)) + ψπ(s(cid:48), s) = 1 2. if s0 ⇒ s1 ⇒ s2 then s0 ⇒ s2 (transitivity for ⇒) 3. if s0 → s1 → ··· → si ⇒ si+1 → ··· → st then s0 ⇒ st 4. in general s1 → s2 and s2 → s3 doesn’t imply s1 → s3 1. ππ(s, s(cid:48)) + ππ(s(cid:48), s) = 1 2. if s0 , s1 , s2 then s0 , s2 (transitivity for s1) 3. if s0 → s1 → ···· → si+1 → ····· → st then s0 , st 4 in general s1 → s2 and s2 → s3 は s1 → s3 を含まない。 0.80
Proofs: (1) ψπ(s, s(cid:48)) + ψπ(s(cid:48), s) = Eτ∼πEt(cid:54)=t(cid:48)|st=s,st(cid:48) =s(cid:48)(cid:2)1t(c id:48)>t + 1t(cid:48)<t Eτ∼πEt(cid:54)=t(cid:48)|st=s,st(cid:48) =s(cid:48)(cid:2)1(ci d:3) = 1. 証拠: 1) ππ(s, s(cid:48)) + ππ(s(cid:48), s) = eτsπet(cid:54)=t(cid:48)|st=s,st(cid:48) =s(cid:48)(cid:2)1t(c id:48)>t + 1t(cid:48)<t eτsπet(cid:54)=t(cid:48)|st=s(cid:48) =s(cid:48)(cid:2)1(ci d:3) = 1。 0.71
Figure 9: Counterexample for proposition 4. 図9: 命題4に対する反例。 0.73
The initial state is sampled uniformly amongst {0, 1, 2}. 初期状態は {0, 1, 2} の中で一様にサンプリングされる。 0.76
(cid:3) = (2) and (3): As (3) is stronger than (2), we only prove (3). (cid:3) = (2) と (3): (3) が (2) より強いことを証明するのは (3) のみである。 0.84
If it is possible to have s0 after st in a trajectory, then it is possible to have si after st. As we have a positive probability of seeing st after si+1, we have a positive probability of seeing si after si+1, which contradicts si ⇒ si+1. st の後に s0 を持つことができるなら、st の後に si を持つことができる。 si+1 の後に si を見る確率が正であることから、si+1 の後に si を見る確率は si+1 と矛盾する。 0.85
13 1230.10.10.10.90.90. 9 13 1230.10.10.10.90.90. 9 0.51
英語(論文から抽出)日本語訳スコア
(4) A counter example can be found in Fig 9. (4) 逆の例を図9に示すことができる。 0.77
In this case we clearly have s1 → s2, s2 → s3 and s3 → s1. この場合、明らかに s1 → s2, s2 → s3, s3 → s1 である。 0.77
A.3 Proofs of Theorem 1 and Theorem 2 a.3 定理 1 と定理 2 の証明 0.80
In the following, we prove simultaneously Theorem 1 and Theorem 2. 以下では、定理1と定理2を同時に証明する。 0.66
We begin by two lemmas. 私たちは2つの補題から始めます。 0.54
Lemma 1. Given a trajectory τ, we denote by #T (s → s(cid:48)) the number of pairs (s, s(cid:48)) in τ1:T such that s appears before s(cid:48). レマ1号。 軌道 τ が与えられたとき、s が s(cid:48) の前に現れるような τ1:T の対 (s, s(cid:48)) の数を #T (s → s(cid:48)) で表す。 0.66
We present a simple formula for ψ(s(cid:48), s) according to the structure of the state trajectory: 状態軌跡の構造に応じて、s(s(cid:48) s) の簡単な式を示す。 0.69
ψπ,T (s, s(cid:48)) = π,T(s, s(cid:48)) = 0.88
Eτ∼π (cid:2)#T (s → s(cid:48))(cid:3) エッセイπ (cid:2)#T (s → s(cid:48))(cid:3) 0.63
(cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) . (cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3)。 0.88
Eτ∼π Proof. In order to simplify the notations, we leave implicit the fact that indices are always sampled within [0, T ]. エッセイπ 証明。 表記を単純化するために、インデックスは常に [0, T ] 内でサンプリングされるという事実を暗黙的に残す。 0.55
Similarly, we have: Combining it with our previous equation: 同様に、 それを我々の以前の方程式と組み合わせる。 0.47
. = (cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) = . = (cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) 0.78
ψπ,T (s, s(cid:48)) = EπEt(cid:54)=t(cid:48)|st=s,st(cid:48) =s(cid:48)(cid:2)1t(c id:48)>t (cid:3) , EπEt(cid:54)=t(cid:48)(cid:2)1t(c id:48)>t1st=s1st(cid:48) =s(cid:48)(cid:3) EπEt(cid:54)=t(cid:48)(cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) EπEt(cid:54)=t(cid:48)(cid:2)1t(c id:48)>t1st=s1st(cid:48) =s(cid:48)(cid:3) (cid:3) Et(cid:54)=t(cid:48)(cid:2)1t(c id:48)>t (cid:3) (cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3)Et(c id:54)=t(cid:48)(cid:2)1t(c id:48)>t EπEt(cid:54)=t(cid:48),(cid:2)1st =s1st(cid:48) =s(cid:48)(cid:3) (cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) EπEt(cid:54)=t(cid:48)(cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) . ψπ,T (s, s(cid:48)) = EπEt(cid:54)=t(cid:48)|st=s,st(cid:48) =s(cid:48)(cid:2)1t(c id:48)>t (cid:3) , EπEt(cid:54)=t(cid:48)(cid:2)1t(c id:48)>t1st=s1st(cid:48) =s(cid:48)(cid:3) EπEt(cid:54)=t(cid:48)(cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) EπEt(cid:54)=t(cid:48)(cid:2)1t(c id:48)>t1st=s1st(cid:48) =s(cid:48)(cid:3) (cid:3) Et(cid:54)=t(cid:48)(cid:2)1t(c id:48)>t (cid:3) (cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3)Et(c id:54)=t(cid:48)(cid:2)1t(c id:48)>t EπEt(cid:54)=t(cid:48),(cid:2)1st =s1st(cid:48) =s(cid:48)(cid:3) (cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) EπEt(cid:54)=t(cid:48)(cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) . 0.65
EπEt(cid:48)>t EπEt(cid:48)>t 0.75
EπEt(cid:48)>t EπEt(cid:48)>t 0.75
1 2 = , . ψπ,T (s, s(cid:48)) = 1 2 = , . π,T(s, s(cid:48)) = 0.86
EπEt(cid:48)>t EπEt(cid:48)>t 0.75
Looking at the denominator, we can notice: 分母を見ると、以下のことが分かる。 0.54
EπEt(cid:54)=t(cid:48)(cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) = EπEt(cid:54)=t(cid:48)(cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) 0.63
which comes from the fact that t and t(cid:48) play a symmetrical role. これは t と t(cid:48) が対称的な役割を果たすことに由来する。 0.76
Thus, Since Eτ∼π したがって 以来 エッセイπ 0.59
ψπ,T (s, s(cid:48)) = π,T(s, s(cid:48)) = 0.88
Eτ∼πEtEt(cid:48)>t Eτ-πEtEt(cid:48)>t 0.55
(cid:2)#T (s → s(cid:48))(cid:3) = (cid:2)#T (s → s(cid:48))(cid:3) = 0.88
(cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) , (cid:3) , (cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) , (cid:3) 0.61
1 2 1 2 = 1 2 1 2 1 2 = 1 2 0.85
EπEt(cid:48)<t EπEt(cid:48)<t 0.75
Eτ∼πEtEt(cid:48)>t Eτ-πEtEt(cid:48)>t 0.55
EπEt<t(cid:48)(cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) + EπEt<t(cid:48)(cid:2)1st=s1st(cid:48) =s(cid:48) + 1st=s(cid:48)1st(cid:48) =s (cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) (cid:2)1st=s1st(cid:48) =s(cid:48) + 1st=s(cid:48)1st(cid:48) =s (cid:88) (cid:19) (cid:88) (cid:18)T (cid:18)T (cid:19) EπEt<t(cid:48)(cid:48) =s(cid:48)(cid:48)(ci d:3) + EπEt<t(cid:48)(cid:48)(ci d:2)1st=s1st(cid:48) =s(cid:48) + 1st=s(cid:48)1st(cid:48) =s(cid:48)(cid:48) =s(cid:48)(cid:3) (cid:2)1st=s1st(cid:48) =s(cid:48) + 1st=s(cid:48)1st(cid:48) =s(cid:48) (cid:48) =s(cid:88) (cid:88) (cid:88) (cid:18) (cid:18:18) =s(cid:48)(cid:48) 0.58
(cid:1) 1si=s1sj =s(cid:48) , (cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) , (cid:1) 1si=s1sj =s(cid:48) , (cid:2)1st=s1st(cid:48) =s(cid:48)(cid:3) , 0.60
1si=s1sj =s(cid:48) , 1si=s1sj =s(cid:48) , 0.55
Eτ∼πEtEt(cid:48)>t Eτ-πEtEt(cid:48)>t 0.55
1(cid:0)T i<j≤T 1(cid:0)T i<j≤T 0.83
i<j≤T = = 2 i<j≤T = = 2 0.83
2 2 (cid:3) . 2 2 (cid:3)。 0.81
14 14 0.85
英語(論文から抽出)日本語訳スコア
we get: ψπ,T (s, s(cid:48)) = わかりました π,T(s, s(cid:48)) = 0.59
ψπ,T (s, s(cid:48)) = π,T(s, s(cid:48)) = 0.88
(cid:0)T 2 (cid:0)T 2 0.85
(cid:1)Eτ∼π (cid:0)T (cid:2)#T (s → s(cid:48))(cid:3) (cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) , (cid:1)Eτ∼π (cid:2)#T (s → s(cid:48))(cid:3) (cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) . (cid:1)Eτπ (cid:0)T (cid:2)#T (s → s(cid:48))(cid:3) (cid:3)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) , (cid:1)Eτπ (cid:3)#T (s → s(cid:48))(cid:3) (cid:3)#T (s → s(cid:48)) + #T (cid:48) → s(cid:3) . 0.84
Eτ∼π 2 Eτ∼π エッセイπ 2 エッセイπ 0.54
Lemma 2. Assume that we are given a fixed trajectory where s appears k ∈ N times, in the form of : レマ2号。 s が k ∈ N 回現れるような固定軌跡を : の形で与えられると仮定する。 0.60
s0 −→(cid:124)(cid:123)(c id:122)(cid:125) s0 −→(cid:124)(cid:123)(c id:122)(cid:125) 0.71
n0(s(cid:48)) n0(s(cid:48)) 0.86
s −→(cid:124)(cid:123)(c id:122)(cid:125) s −→(cid:124)(cid:123)(c id:122)(cid:125) 0.74
n1(s(cid:48)) n1(s(cid:48)) 0.86
s −→(cid:124)(cid:123)(c id:122)(cid:125) s −→(cid:124)(cid:123)(c id:122)(cid:125) 0.74
n2(s(cid:48)) n2(s(cid:48)) 0.86
. . . −→(cid:124)(cid:123)(c id:122)(cid:125) . . . −→(cid:124)(cid:123)(c id:122)(cid:125) 0.82
nk−1(s(cid:48)) nk−1(s(cid:48)) 0.78
s −→(cid:124)(cid:123)(c id:122)(cid:125) s −→(cid:124)(cid:123)(c id:122)(cid:125) 0.74
nk(s(cid:48)) nk(s(cid:48)) 0.94
, where ni(s(cid:48)) denotes the number of times s(cid:48) appears between the ith and the (i + 1)th occurrence of s. In this case, , ここで ni(s(cid:48)) は ith と (i + 1) の発生の間に s(cid:48) が現れる回数を表す。 0.80
n3(s(cid:48)) n3(s(cid:48)) 0.86
s −→(cid:124)(cid:123)(c id:122)(cid:125) k(cid:88) s −→(cid:124)(cid:123)(c id:122)(cid:125) k(cid:88) 0.75
#T (s → s(cid:48)) = #T (s → s(cid:48)) = 0.99
i × ni(s(cid:48)) . i × ni(s(cid:48))。 0.91
(4) i=0 If we suppose that n1(s(cid:48)) = n2(s(cid:48)) = ··· = nk−1(s(cid:48)), we also have (4) i=0 n1(s(cid:48)) = n2(s(cid:48)) = ···· = nk−1(s(cid:48)) と仮定すると、 0.73
Proof. Eq (4) comes directly from #T (s → s(cid:48)) =(cid:80)k Equ. 証明。 Eq (4) は #T (s → s(cid:48)) = (cid:80)k Equ から直接来る。 0.77
(5), we first notice that #T (s → s(cid:48)) + #T (s(cid:48) → s) = k ×(cid:80)k #T (s → s(cid:48)) − #T (s(cid:48) → s) = 2 × #T (s → s(cid:48)) −(cid:0)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:1) , k−1(cid:88) (5)) + #T (s → s(cid:48)) + #T (s(cid:48) → s) = k ×(cid:80)k #T (s → s(cid:48)) − #T (s(cid:48) → s) = 2 × #T (s → s(cid:48)) −(cid:0)#T (s → s(cid:48)) + #T (cid:48) → s)(cid:1) , k−1(cid:88) である。 0.94
#T (s → s(cid:48)) − #T (s(cid:48) → s) = k(cid:0)nk(s(cid:48) ) − n0(s(cid:48))(cid:1) . #T (s → s(cid:48)) − #T (s(cid:48) → s) = k(cid:0)nk(s(cid:48) ) − n0(s(cid:48))(cid:1) である。 0.86
(cid:80)k j=i nj(s(cid:48)) =(cid:80)k (cid:33) −(cid:0)k nk(s(cid:48)) + k n0(s(cid:48)) + k (k − 1) n1(s(cid:48))(cid:1) , (cid:80)k j=i nj(s(cid:48)) =(cid:80)k (cid:33) −(cid:0)k nk(s(cid:48)) + k n0(s(cid:48)) + k (k − 1) n1(s(cid:48))(cid:1) 0.87
(5) i=0 i× ni(s(cid:48)). (5) i=0 i× ni(s:48)。 0.77
To prove k nk(s(cid:48)) + n1(s(cid:48)) 証明する k nk(s(cid:48)) + n1(s(cid:48)) 0.76
i=0 ni(s(cid:48)). i=0 ni(s(cid:48))。 0.78
Thus (cid:32) したがって (cid:32) 0.74
= 2 i=1 i = 2 i=1 私は 0.66
= k nk(s(cid:48)) − k n0(s(cid:48)) . = k nk(s(cid:48)) − k n0(s(cid:48))。 0.91
i=0 Theorem 1. For every policy π and s, s(cid:48) ∈ S, ψπ,T (s, s(cid:48)) converges when T goes to infinity. i=0 理論1。 任意のポリシー π と s に対して s(cid:48) ∈ S は、T が無限大に進むときに s(cid:48) は収束する。 0.63
Theorem 2. Given a policy π, a state s, and an action a, we can link reversibility and empirical reversibility with the inequality: ¯φπ(s, a) ≥ φπ(s,a) Proof. 定理2。 ポリシー π, 状態 s, 作用 a が与えられたとき、可逆性と経験的可逆性は不等式とリンクできる: φπ(s, a) ≥ φπ(s, a) Proof。 0.67
For a policy π and s, s(cid:48) ∈ S, we define ˆφπ(s, s(cid:48)) the quantity pπ(s ∈ τt+1:∞ | st = s(cid:48)) such In order to prove the theorem, we first prove that ψT (s(cid:48), s) that φπ(s, a) = Es(cid:48)∼P (s,a) converges to a quantity denoted by ψ(s(cid:48), s), and that: ポリシー π と s に対して、s(cid:48) ∈ S に対して、s(cid:48) の量 pπ(s ∈ τt+1:∞ | st = s(cid:48)) {\displaystyle pπ(s ∈ τt+1:∞ | st = s(cid:48))} と定義する。
訳抜け防止モード: ポリシー π と s に対して、s(cid:48 ) ∈ s, s(cid:48 ) ) の量 pπ(s ∈ τt+1:∞ | st = s(cid:48 ) を定理を証明するために定義する。 まず、ψt ( s(cid:48 ), s ) が φπ(s,) であることを証明する。 a ) = es(cid:48)\p ( s, a ) は ψ(s(cid:48)) で表される量に収束する。 s) とそれ。
0.87
(cid:104) ˆφπ(s, s(cid:48)) (cid:105) (cid:104) sππ(s, s(cid:48))(cid:105) 0.76
. 2 ∀s, s(cid:48) ∈ S, . 2 s, s(cid:48) ∈ s, 0.76
ˆφπ(s, s(cid:48)) ~ππ(s, s(cid:48)) 0.76
≤ ψ(s(cid:48), s) . ≤ ψ(s(cid:48), s) である。 0.80
(6) We subdivide our problem into four cases, depending on whether s and s(cid:48) are recurrent or transient. (6) s と s(cid:48) がリカレントかトランジェントかによって、問題を4つのケースに分割する。 0.71
pπ(s ∈ τt+1:∞ | st = s) < 1 and pπ(s(cid:48) ∈ τt+1:∞ | st = s(cid:48)) = 1 (s is transient and s(cid:48) Case 1: is recurrent for the Markov chain induced by π). pπ(s ∈ τt+1:∞ | st = s) < 1 and pπ(s(cid:48) ∈ τt+1:∞ | st = s(cid:48)) = 1 (s は過渡的で s(cid:48) の場合 1: π によって誘導されるマルコフ連鎖に対して再帰的である。
訳抜け防止モード: pπ(s ∈ τt+1:∞ | st = s ) < 1 and pπ(s(cid:48 ) ∈ τt+1:∞ | st = s(cid:48) ) = 1 ( s is transient and s(cid:48 ) Case 1 : is recurrent for the Markov chain induced by π ) .
0.92
Informally, this means that if a trajectory contains the state s(cid:48) we tend to see s(cid:48) an infinite number of times, and we only see s a finite number of times in a given trajectory. これは、トラジェクトリが状態 s(cid:48) を含む場合、s(cid:48) は無限の回数で見る傾向にあり、s は与えられたトラジェクトリにおいて有限の回数しか見ることができないことを意味する。 0.65
This implies ˆφπ(s, s(cid:48)) = pπ(s ∈ τt+1:∞ | st = s(cid:48)) = 0, as recurrent states can only be linked to other recurrent states [33]. このことは、再帰状態が他の再帰状態 [33] とのみリンクできるので、 s(cid:48)) = pπ(s ∈ τt+1:∞ | st = s(cid:48)) = 0 を意味する。 0.79
It is not possible to find trajectories where s appears after s(cid:48), thus ψT (s(cid:48), s) = 0 = ψ(s(cid:48), s). s が s(cid:48) の後に現れるような軌跡を見つけることはできないので、s(cid:48), s) = 0 = s(cid:48), s である。 0.82
Equ. (6) becomes "0 ≤ 0". Equ (6) は "0 ≤ 0" となる。 0.71
2 15 2 15 0.85
英語(論文から抽出)日本語訳スコア
pπ(s ∈ τt+1:∞ | st = s) = 1 and pπ(s(cid:48) ∈ τt+1:∞ | st = s(cid:48)) < 1 (s is recurrent and s(cid:48) pπ(s ∈ τt+1:∞ | st = s) = 1 および pπ(s(cid:48) ∈ τt+1:∞ | st = s(cid:48)) < 1 (s はリカレントで s(cid:48) 0.88
Case 2: is transient for the Markov chain induced by π). ケース2: π によって誘導されるマルコフ鎖に対して過渡的である。 0.60
As before, this implies ˆφπ(s(cid:48), s) = pπ(s(cid:48) ∈ τt+1:∞ | st = s) = 0, and thus it is not possible to see in a trajectory s after s(cid:48). 前述したように、s) = pπ(s(cid:48), s) = pπ(s(cid:48) ∈ τt+1:∞ | st = s) = 0 である。
訳抜け防止モード: 前述したように、これは φπ(s(cid:48 ), s ) = pπ(s(cid:48 ) ∈ τt+1:∞ | st = s ) = 0 を意味する。 ですから それは不可能です to see in a trajectory s after s (cid:48 )
0.84
It implies ψT (s(cid:48), s) = 1 = ψ(s(cid:48), s), so Equ. すなわち ψt (s(cid:48), s) = 1 = ψ(s(cid:48), s) である。 0.75
(6) is verified. (6)が検証される。 0.74
pπ(s ∈ τt+1:∞ | st = s) = 1 and pπ(s(cid:48) ∈ τt+1:∞ | st = s(cid:48)) = 1 (s is recurrent and s(cid:48) is Case 3: recurrent for the Markov chain induced by π). pπ(s ∈ τt+1:∞ | st = s) = 1 と pπ(s(cid:48) ∈ τt+1:∞ | st = s(cid:48)) = 1 (s は再帰であり、s(cid:48) はケース3である。 0.88
We denote by Tk the random variable corresponding to the time of the kth visit to s. A trajectory can be represented as follows: 我々は Tk で s への k 番目の訪問時間に対応する確率変数を示す。 0.49
s0 −→(cid:124)(cid:123)(c id:122)(cid:125) s0 −→(cid:124)(cid:123)(c id:122)(cid:125) 0.71
n1(s(cid:48)) n1(s(cid:48)) 0.86
s −→(cid:124)(cid:123)(c id:122)(cid:125) s −→(cid:124)(cid:123)(c id:122)(cid:125) 0.74
n2(s(cid:48)) n2(s(cid:48)) 0.86
s −→(cid:124)(cid:123)(c id:122)(cid:125) s −→(cid:124)(cid:123)(c id:122)(cid:125) 0.74
n3(s(cid:48)) n3(s(cid:48)) 0.86
s −→(cid:124)(cid:123)(c id:122)(cid:125) s −→(cid:124)(cid:123)(c id:122)(cid:125) 0.74
n4(s(cid:48)) n4(s(cid:48)) 0.86
. . . −→(cid:124)(cid:123)(c id:122)(cid:125) . . . −→(cid:124)(cid:123)(c id:122)(cid:125) 0.82
nk(s(cid:48)) nk(s(cid:48)) 0.94
s = sTk −→(cid:124)(cid:123)(c id:122)(cid:125) s = sTk −→(cid:124)(cid:123)(c id:122)(cid:125) 0.77
nk+1(s(cid:48)) nk+1(s(cid:48)) 0.78
, where, writing ∼ the equality in distribution, n2(s(cid:48)) ∼ n3(s(cid:48)) ∼ ··· ∼ nk(s(cid:48)) and Eτ n2(s(cid:48)) = Eτ n3(s(cid:48)) = ··· = Eτ nk(s(cid:48)) using the strong Markov property. , ここで、分布の等式 n2(s(cid:48)) と eτ n2(s(cid:48)) と eτ n2(s(cid:48)) = eτ n3(s(cid:48)) = ··· = eτ nk(s(cid:48)) と書く。 0.80
From Lemma 1 we get: Lemma 1から: 0.50
ψπ,T (s, s(cid:48)) = π,T(s, s(cid:48)) = 0.88
= = Eτ∼π (cid:2)#T (s → s(cid:48))(cid:3) (cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) , (cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s) + #T (s → s(cid:48)) − #T (s(cid:48) → s)(cid:3) (cid:2)#T (s → s(cid:48)) − #T (s(cid:48) → s)(cid:3) (cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) . = = エッセイπ (cid:2)#T (s → s(cid:48))(cid:3) (cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) , (cid:2)#T (s → s(cid:48) → s) + #T (s(cid:48) → s) + #T (s(cid:48) → s) + #T (cid:48) → s)(cid:3) (cid:2)#T (s → s(cid:48)) - #T (s(cid:48) → s)(cid:3) (cid:3)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) 0.75
(cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) (cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) 0.92
Eτ∼π 2 Eτ∼π Eτ-π 2 Eτ-π 0.36
Eτ∼π Eτ∼π 1 2 エッセイπ Eτ π 1 2 0.53
Eτ∼π 1 2 + エッセイπ 1 2 + 0.70
, (7) We can see from Lemma 2 : , (7) Lemma 2から見ることができます。 0.81
(cid:2)#Tk (s → s(cid:48)) − #Tk (s(cid:48) → s)(cid:3) = −k Eτ n1(s(cid:48)) . (cid:2)#Tk (s → s(cid:48)) − #Tk (s(cid:48) → s)(cid:3) = −k Eτ n1(s(cid:48))。 0.86
Eτ Thus, (cid:2)#Tk (s → s(cid:48)) − #Tk (s(cid:48) → s)(cid:3) (cid:2)#Tk (s → s(cid:48)) + #Tk (s(cid:48) → s)(cid:3) = Eτ したがって (cid:2)#Tk (s → s(cid:48)) − #Tk (s(cid:48) → s)(cid:3) (cid:3)#Tk (s → s(cid:48)) + #Tk (s(cid:48) → s)(cid:3) = 0.80
Eτ Eτ∼π Eτ (複数形 Eτs) 0.21
−k Eτ n1(s(cid:48)) −k Eτ n1(s(cid:48)) 0.78
k Eτ n1(s(cid:48)) + k2 Eτ n2(s(cid:48)) k Eτ n1(s(cid:48)) + k2 Eτ n2(s(cid:48)) 0.81
−−−−→ k→∞ 0. −−−−→k→∞ 0。 0.52
Given t ∈ N and a trajectory τ, we denote #T (s) the random variable corresponding to the number of times when s appear before t, such that a trajectory has the following structure : t ∈ n と軌道 τ が与えられたとき、軌道が次の構造を持つように、s が t の前に現れる回数に対応する確率変数 #t (s) を示す。 0.71
s −→(cid:124)(cid:123)(c id:122)(cid:125) s −→(cid:124)(cid:123)(c id:122)(cid:125) 0.74
s0 −→(cid:124)(cid:123)(c id:122)(cid:125) s0 −→(cid:124)(cid:123)(c id:122)(cid:125) 0.71
s −→(cid:124)(cid:123)(c id:122)(cid:125) s −→(cid:124)(cid:123)(c id:122)(cid:125) (cid:2)#T (s → s(cid:48)) − #T (s(cid:48) → s)(cid:3) (cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) ≤ Eτ s −→(cid:124)(cid:123)(c id:125) s −→(cid:124)(cid:123)(c id:125) (cid:125) (cid:2)#T (s → s(cid:48)) − #T (s(cid:48) → s)(cid:3) (cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) ≤ Eτ 0.86
n1(s(cid:48)) n1(s(cid:48)) 0.86
n3(s(cid:48)) n3(s(cid:48)) 0.86
n2(s(cid:48)) n2(s(cid:48)) 0.86
n4(s(cid:48)) n4(s(cid:48)) 0.86
(cid:125) (cid:123)(cid:122) s = sT#T (s) −→ st −→ nk+1(s(cid:48)) (cid:125) (cid:123)(cid:122) s = sT#T (s) −→ st −→ nk+1(s(cid:48)) 0.82
. . . −→(cid:124)(cid:123)(c id:122)(cid:125) (cid:2)##T (s)(s → s(cid:48)) − ##T (s)(s(cid:48) → s)(cid:3) + Eτ #T (s)nk+1(s(cid:48)) . . . −→(cid:124)(cid:123)(c id:125) (cid:2)#T (s)(s → s(cid:48)) − #T (s)(cid:48) → s)(cid:3) + Eτ #T (s)nk+1(s(cid:48)) 0.88
s = sT#T (s)+1 . s = sT#T (s)+1 である。 0.84
nk(s(cid:48)) nk(s(cid:48)) 0.94
(cid:124) Eτ ##T (s)(s → s(cid:48)) + Eτ ##T (s)(s(cid:48) → s) (cid:124) eτ ##t (s)(s → s(cid:48)) + eτ ##t (s)(s(cid:48) → s) 0.87
Eτ Eτ , −−−−→ T→∞ 0 as in Equ. Eτ Eτ , −−−−−−t→∞ 0 である。 0.72
(7). And, (cid:2)#T (s → s(cid:48)) − #T (s(cid:48) → s)(cid:3) (cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) ≥ Eτ (7). そして (cid:2)#T (s → s(cid:48)) − #T (s(cid:48) → s)(cid:3) (cid:3)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) ≥ Eτ 0.73
(cid:2)##T (s)(s → s(cid:48)) − ##T (s)(s(cid:48) → s)(cid:3) − Eτ (cid:2)#T (s)(s → s(cid:48)) −#T (s)(cid:48) → s)(cid:3) − Eτ 0.95
(cid:80)#T (s)+1 (cid:2)##T (s)(s → s(cid:48)) + ##T (s)(s(cid:48) → s)(cid:3) (cid:80)#T (s)+1 (cid:2)##T (s)(s → s(cid:48)) + ##T (s)(cid:48) → s)(cid:3) 0.98
i=1 Eτ Eτ ni(s(cid:48)) i=1 Eτ Eτ ni(s(cid:48)) 0.75
, −−−−→ T→∞ 0 , −−−−→T→∞ 0 0.66
Eτ 16 Eτ 16 0.82
英語(論文から抽出)日本語訳スコア
Therefore, Eτ Eτ そのため Eτ Eτ 0.73
(cid:2)#T (s → s(cid:48)) − #T (s(cid:48) → s)(cid:3) (cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) −−−−→ (cid:2)#T (s → s(cid:48)) − #T (s(cid:48) → s)(cid:3) (cid:3)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) −−−−−→ 0.85
ψπ,T (s, s(cid:48)) = π,T(s, s(cid:48)) = 0.88
1 2 + Eτ 2Eτ∼π 1 2 + Eτ 2Eταπ 0.74
T→∞ 0 , and finally, T→∞ 0 , そして最後に 0.88
(cid:2)#T (s → s(cid:48)) − #T (s(cid:48) → s)(cid:3) (cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) −−−−→ (cid:2)#T (s → s(cid:48)) − #T (s(cid:48) → s)(cid:3) (cid:3)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) −−−−−→ 0.85
T→∞ 1 2 . As ˆφπ(s, s(cid:48)) = 1 here, we immediately have ˆφπ(s,s(cid:48)) is tight in this case. T→∞ 1 2 . ここで s(cid:48)) = 1 であるように、ここでは直ちに sππ(s,s(cid:48)) がタイトである。 0.76
2 = ψ(s(cid:48), s). 2 = ψ(s(cid:48), s)。 0.86
We can notice that the inequality pπ(s ∈ τt+1:∞ | st = s) < 1 and pπ(s(cid:48) ∈ τt+1:∞ | st = s(cid:48)) < 1 (s is transient and s(cid:48) Case 4: is transient for the Markov chain induced by π). 不平等に気づく pπ(s ∈ τt+1:∞ | st = s) < 1 と pπ(s(cid:48) ∈ τt+1:∞ | st = s(cid:48)) < 1 (s は過渡的で s(cid:48) の場合 4: π によって誘導されるマルコフ鎖に対して過渡的である。
訳抜け防止モード: 不平等に気づく pπ(s ∈ τt+1:∞ | st = s ) < 1 and pπ(s(cid:48 ) ∈ τt+1:∞ | st = s(cid:48) ) < 1 ( s is transient and s(cid:48 ) Case 4 : is transient for the Markov chain induced by π ) .
0.65
To simplify the following formulas, we will write α = pπ(s ∈ τt+1:∞ | st = s(cid:48)). 次の式を単純化するために、 α = pπ(s ∈ τt+1:∞ | st = s(cid:48)) と書く。 0.79
Here, we denote by #(s) the random variable corresponding to the total number of visits of the state s, and #(s → s(cid:48)) the number of pairs such that s appears before s(cid:48). ここでは、状態 s の総訪問数に対応する確率変数 #(s) と、s が s(cid:48) の前に現れるようなペアの数 #(s → s(cid:48)) で表す。 0.72
#(s) follows the geometric distribution G (1 − pπ(s ∈ τt+1:∞ | st = s)). #(s) は幾何分布 g (1 − pπ(s ∈ τt+1:∞ | st = s)) に従う。 0.90
#T (s → s(cid:48)) converges almost surely to #(s → s(cid:48)), and we have #T (s → s(cid:48)) ≤ #(s → s(cid:48)). #T (s → s(cid:48)) はほぼ確実に #(s → s(cid:48)) に収束し、 #T (s → s(cid:48)) ≤ #(s → s(cid:48)) となる。 0.88
Therefore, using the dominated convergence theorem, Eτ したがって、支配的な収束定理である eτ を用いて 0.61
(cid:2)#T (s → s(cid:48))(cid:3) −−−−→ (cid:2)#T (s → s(cid:48))(cid:3) −−−−−→ 0.73
(cid:2)#(s → s(cid:48))(cid:3), and thus: (cid:2)#(s → s(cid:48)) + #(s(cid:48) → s)(cid:3) = ψπ(s(cid:48), s) . (cid:2)#(s → s(cid:48))(cid:3) なので、 (cid:2)#(s → s(cid:48)) + #(s(cid:48) → s)(cid:3) = s(cid:48) s である。 0.90
T→∞ Eτ Eτ #(s(cid:48) → s) T→∞ Eτ Eτ #(s(cid:48) → s) 0.80
ψπ,T (s(cid:48), s) = ππ,t (s(cid:48), s) = 0.89
Eτ (cid:2)#T (s(cid:48) → s)(cid:3) Eτ (cid:2)#T (s(cid:48) → s)(cid:3) 0.83
(cid:2)#T (s → s(cid:48)) + #T (s(cid:48) → s)(cid:3) −−−−→ (cid:2)#T (s → s(cid:48)) + #T (cid:48) → s)(cid:3)−−−−−−→ 0.82
T→∞ Eτ Eτ This time, we consider a trajectory τ where s appears k times after s(cid:48), such that it is of the form: T→∞ Eτ Eτ 今回は、s が s(cid:48) の後に k 回現れる軌跡 τ を考える。
訳抜け防止モード: T→∞ Eτ Eτ 今回、s が s (cid:48 ) の後に k 回現れる軌道 τ を考える。 それが形式であるように
0.71
n1(s)>0 −→ s . n1(s)>0 -→s。 0.79
. . s −→ s . . . s -→s。 0.79
. . s −→ s(cid:48) . . . s −→s(cid:48)。 0.81
. . s(cid:48) n1(s(cid:48))>0 . . s(cid:48) n1(s(cid:48))>0 0.86
s(cid:48) . s(cid:48)。 0.74
. . s(cid:48) n0(s(cid:48))≥0 Here, n0(s(cid:48)) is the number of times when s(cid:48) appears in the trajectory before the first appearance of s(cid:48), ni(s) is the number of times when s appears between two occurrences of s(cid:48), and nk(s(cid:48)) the number of times when s(cid:48) appears after the last appearance of s. From the strong Markov property, n1(s(cid:48)) ∼ n2(s(cid:48)) ∼ ··· ∼ nk−1(s(cid:48)) and n1(s) ∼ n2(s) ∼ ··· ∼ nk(s). . . s(cid:48) n0(s(cid:48))≥0 ここで n0(s(cid:48)) は、s(cid:48) が最初に現れる前の軌道に s(cid:48) が現れる回数、ni(s) は s(cid:48) と nk(s(cid:48)) の2つの発生の間に s が現れる回数である。
訳抜け防止モード: . . s(cid:48 ) n0(s(cid:48))≥0 ここで、n0(s(cid:48 ) ) は s(cid:48) の回数である。 )は、s(cid:48 )の最初の出現の前に軌道に現れる。 ni(s)は、sが2つのs(cid:48 )の間に現れる回数である。 and nk(s(cid:48 ) ) s(cid:48 ) が最後の出現後に現れる回数。 n1(s(cid:48 ) ) . n2(s(cid:48 ) ) . . nk−1(s(cid:48 ) ) そして、n1(s) > n2(s) · · · · nk(s) である。
0.84
Note also that these variables are all independent. また、これらの変数はすべて独立である。 0.70
Here k is a random variable following the geometric distribution G(α) where α = p(s ∈ τt:∞ | st = s(cid:48)). ここで k は幾何学分布 g(α) に続く確率変数であり、 α = p(s ∈ τt:∞ | st = s(cid:48)) である。 0.85
Notice that when nk(s(cid:48)) > 0, we have nk(s) ∼ n1(s) and nk(s(cid:48)) ∼ n1(s(cid:48)). nk(s(cid:48)) > 0 のとき、nk(s) は n1(s) であり、nk(s(cid:48)) は n1(s(cid:48)) である。 0.86
Using these two simplifications, one can write: これら2つの単純化を使って、次のように書くことができる。 0.43
−→ ··· −→ s(cid:48) . -→···→s(cid:48)。 0.62
. . s(cid:48) nk−1(s(cid:48))>0 . . s(cid:48) nk−1(s(cid:48))>0 0.84
−→ s(cid:48) . −→s(cid:48)。 0.68
. . s(cid:48) nk(s(cid:48))≥0 . . s(cid:48) nk(s(cid:48))≥0 0.89
−→ s . . . s -→s。 . . s 0.79
nk(s)>0 n2(s)>0 nk(s)>0 n2(s)>0 0.91
−→ (cid:104) −→ (cid:104) 0.78
Eτ #(s(cid:48) → s) − #(s → s(cid:48)) Eτ #(s(cid:48) → s) − #(s → s(cid:48)) 0.88
(cid:12)(cid:12)(cid :12)k (cid:12)(cid:12)(cid :12)k 0.76
≥ Eτ #(s(cid:48) → s) − #(s → s(cid:48)) ≥Eτ #(s(cid:48) → s) − #(s → s(cid:48)) 0.92
(cid:104) (cid:104) n0(s(cid:48))(cid:2) n1(s) + (k − 1)n1(s) + nk(s)(cid:3) − n1(s)(cid:2)kn1(s(ci d:48)) + nk(s(cid:48))(cid:3) + (cid:104) (cid:104) n0(s(cid:48))(cid:2) n1(s) + (k − 1)n1(s) + nk(s)(cid:3) − n1(s)(cid:2)kn1(s(ci d:48)) + nk(s(cid:48))(cid:3) + 0.87
(cid:12)(cid:12)(cid :12)k, nk(s(cid:48)) > 0 (cid:105) ≥ Eτ nk(s)(cid:2)kn1(s(ci d:48)) − nk(s(cid:48))(cid:3) − nk(s(cid:48))(k − 1)n1(s) (cid:12)(cid:12)(cid :12)k, nk(s(cid:48)) > 0 (cid:105) (cid:12)(cid:12)(cid :12)k, nk(s(cid:48)) > 0 (cid:105) ≥ eτ nk(s)(cid:2)kn1(s(ci d:48)) − nk(s(cid:48))(cid:3) − nk(s(cid:48))(k − 1)n1(s) (cid:12)(cid:12)(cid :12)k, nk(s(cid:48)) > 0 (cid:105) 0.86
(cid:12)(cid:12)(cid :12)k, nk(s(cid:48)) > 0 (cid:12)(cid:12)(cid :12)k, nk(s(cid:48)) > 0 0.85
as in Lemma 2 , Lemma 2 のように。 0.72
(cid:12)(cid:12)(cid :12)k (cid:12)(cid:12)(cid :12)k 0.76
(cid:105) (cid:105) (cid:105) (cid:105) 0.78
(cid:104) (cid:105) (cid:104) (cid:105) 0.78
(cid:104) , (cid:104) , 0.82
, ≥ −kEτ nk(s(cid:48)) ≥ −kEτ (n1(s))Eτ (n1(s(cid:48))) . , ≥ −kEτ nk(s(cid:48)) ≥ −kEτ (n1(s))Eτ (n1(s(cid:48)))。 0.81
n1(s) Eτ Likewise, n1(s) Eτ 同様に 0.82
(cid:2)#(s(cid:48) → s) + #(s → s(cid:48))(cid:12)(c id:12) k(cid:3) = Eτ (cid:104) (cid:2)#(s(cid:48) → s) + #(s → s(cid:48))(cid:12)(c id:12) k(cid:3) = Eτ (cid:104) 0.84
Eτ (cid:104) Eτ (cid:104) 0.78
k n1(s)nk(s(cid:48)) + k n0(s(cid:48))n1(s) + k (k − 1)n1(s)n1(s(cid:48)) k n1(s)nk(s(cid:48)) + k n0(s(cid:48))n1(s) + k (k − 1)n1(s)n1(s(cid:48)) 0.94
(cid:2)n1(s)(cid:3)E τ (cid:2)n1(s)(cid:3)E τ 0.78
(cid:2)n1(s(cid:48)) (cid:3) + Eτ (cid:2)n1(s(cid:48)) (cid:3) + Eτ 0.78
(cid:2)n1(s)(cid:3)E τ (cid:2)n1(s)(cid:3)E τ 0.78
(cid:2)n0(s(cid:48)) (cid:3)(cid:105) (cid:2)n0(s(cid:48)) (cid:3)(cid:105) 0.77
+ k(k − 1)Eτ + k(k − 1)eτ 0.93
(cid:2)n1(s)(cid:3)E τ (cid:2)n1(s)(cid:3)E τ 0.78
(cid:2)n1(s(cid:48)) (cid:3) . (cid:2)n1(s(cid:48)) (cid:3)。 0.72
= k Eτ (cid:12)(cid:12)(cid :12)k =k Eτ (cid:12)(cid:12)(cid :12)k 0.77
(cid:105) , (cid:105) , 0.82
17 17 0.85
英語(論文から抽出)日本語訳スコア
(cid:2)n1(s)(cid:3)E τ (cid:2)n1(s)(cid:3)E τ 0.78
(cid:2)n1(s(cid:48)) (cid:3)(cid:105) , (cid:2)n1(s(cid:48)) (cid:3)(cid:105) , 0.78
Thus, ≥ − Eτ Eτ ≥ − したがって ≥ − Eτ Eτ ≥ − 0.80
(cid:2)#(s(cid:48) → s) − #(s → s(cid:48))(cid:3) (cid:80)∞ (cid:2)#(s → s(cid:48)) + #(s(cid:48) → s)(cid:3) = (cid:80)∞ i=1 p(k = i)Eτ [#(s(cid:48) → s) − #(s → s(cid:48))| k = i] (cid:80)∞ i=1 p(k = i)Eτ [#(s → s(cid:48)) + #(s(cid:48) → s)| k = i] (cid:104) (cid:2)n1(s)(cid:3)E τ i(cid:0)Eτ (cid:80)∞ i=1 αi−1(1 − α) i Eτ i=1 αi−1(1 − α) (cid:80)∞ (cid:104) (cid:2)n1(s)(cid:3)E τ (cid:80)∞ i=1 αi−1(1 − α)iEτ (cid:80)∞ i=1 αi−1(1 − α) i Eτ i=1 αi−1(1 − α)(cid:2)i + i (i − 1)(cid:3) , (cid:80)∞ i=1 αi−1(1 − α) i (cid:80)∞ (cid:80)∞ i=1 αi−1(1 − α) i i=1 αi−1(1 − α) i2 , ≥ − 1 1−α 1+α (1−α)2 ≥ − 1 − α (cid:2)#(s(cid:48) → s) − #(s → s(cid:48))(cid:3) (cid:80)∞ (cid:2)#(s → s(cid:48)) + #(s(cid:48) → s)(cid:3) = (cid:80)∞ i=1 p(k = i)Eτ [#(s(cid:48) → s) − #(s → s(cid:48))| k = i] (cid:80)∞ i=1 p(k = i)Eτ [#(s → s(cid:48)) + #(s(cid:48) → s)| k = i] (cid:104) (cid:2)n1(s)(cid:3)E τ i(cid:0)Eτ (cid:80)∞ i=1 αi−1(1 − α) i Eτ i=1 αi−1(1 − α) (cid:80)∞ (cid:104) (cid:2)n1(s)(cid:3)E τ (cid:80)∞ i=1 αi−1(1 − α)iEτ (cid:80)∞ i=1 αi−1(1 − α) i Eτ i=1 αi−1(1 − α)(cid:2)i + i (i − 1)(cid:3) , (cid:80)∞ i=1 αi−1(1 − α) i (cid:80)∞ (cid:80)∞ i=1 αi−1(1 − α) i i=1 αi−1(1 − α) i2 , ≥ − 1 1−α 1+α (1−α)2 ≥ − 1 − α 0.83
(cid:2)n1(s)(cid:3) Eτ (cid:2)n1(s)(cid:3)E τ (cid:2)n1(s(cid:48)) (cid:3) + Eτ (cid:2)n1(s)(cid:3)E τ (cid:2)n1(s(cid:48)) (cid:3) (cid:2)n1(s(cid:48)) (cid:3) + i (i − 1)Eτ (cid:2)n1(s)(cid:3)E τ(cid:3)Eτ(cid:3)Eτ(cid:3)n1(s(cid:48)) (cid:3) + Eτ(cid:3)n1(s)(cid:3)E τ(cid:3)Eτ(cid:3)Eτ(s(cid:48))(cid:3)n1 (s(cid:))(cid:3) + i(i − 1)Eτ 0.75
(cid:2)n1(s(cid:48)) (cid:3) (cid:2)n0(s(cid:48)) (cid:3)(cid:1) + i (i − 1)Eτ (cid:2)n1(s(cid:48)) (cid:3)(cid:105) , (cid:2)n1(s)(cid:3)E τ (cid:2)n1(s(cid:48)) (cid:3) (cid:2)n0(s(cid:48)) (cid:3)(cid:1) + i(i − 1)eτ(cid:48))(cid:3)(cid :105) , (cid:2)n1(s)(cid:3)e τ) 0.85
≥ − ≥ − , . ≥ − ≥ − , . 0.85
, 1 + α From Lemma 1, , 1 + α Lemma (複数形 Lemmas) 0.68
(cid:2)#(s → s(cid:48)) + #(s(cid:48) → s)(cid:3)(cid:33) (cid:2)#(s(cid:48) → s) − #(s → s(cid:48))(cid:3) (cid:19) (cid:2)#(s → s(cid:48)) + #(s(cid:48) → s)(cid:33) (cid:2)#(s(cid:48) → s) − #(s → s(cid:48))(cid:19) 0.97
, (cid:32) Eτ (cid:18) Eτ∼π 1 − 1 − α , (cid:32) Eτ (cid:18) Eτ π 1 − 1 − α 0.81
1 + 1 + α , ˆφπ(s, s(cid:48)) 1 + 1 + α , φπ(s, s(cid:48)) 0.86
2 , . ψπ(s(cid:48), s) = 2 , . ππ(s(cid:48), s) = 0.88
1 2 ≥ 1 2 ≥ α 1 + α 1 2 ≥ 1 2 ≥ α 1 + α 0.85
≥ α 2 = As a quick summary, we divided our problem in 4 cases, and proved that in each case, for every pair of states s, s(cid:48), we have ψπ(s(cid:48), s) ≥ ˆφπ(s,s(cid:48)) To end the proof, we simply take the expectation over the distribution of the next states: ≥ α 2 = 簡単な要約として、問題を4つのケースに分け、それぞれの場合、各状態 s(cid:48) に対して ππ(s(cid:48), s) ≥ sππ(s,s(cid:48)) が存在して証明を終わらせると、我々は単に次の状態の分布上の期待値を取ることを証明した。 0.85
. 2 Es(cid:48)∼P (s,a)ψπ(s(cid:48), s) ≥ 1 2 . 2 es(cid:48)\p (s,a)ππ(s(cid:48), s) ≥ 1 2 0.88
Es(cid:48)∼P (s,a) es(cid:48)\p (s,a) 0.87
ˆφπ(s, s(cid:48)) , φπ(s, s(cid:48)) , 0.86
¯φπ(s, a) ≥ φπ(s, a) φπ(s, a) ≥ φπ(s, a) 0.95
2 . A.4 Proof of proposition 1 2 . A.4 命題1の証明 0.79
Proposition 1. We suppose that we are given a state s, an action a such that a is reversible in K steps, a policy π and ρ > 0. 命題1。 我々は、状態 s、作用 a が K ステップで可逆であるような作用 π と ρ > 0 を与えられると仮定する。
訳抜け防止モード: 命題1。 我々は状態 s, 作用 a を与えられると仮定する。 A は K 段階において可逆であり、ポリシー π と ρ > 0 である。
0.61
Then, ¯φπ(s, a) ≥ ρK 2 , where A denotes the number of actions. すると φπ(s, a) ≥ ρK 2 となり、A は作用の数を表す。 0.69
Moreover, we have for all K ∈ N: ¯φπ(s, a) ≥ ρK 2 φK(s, a). さらに、すべての K ∈ N に対して φπ(s, a) ≥ ρK 2 φK(s, a) が存在する。 0.80
Proof. We first prove the second part of the proposition, which is more general. 証明。 まず、提案の第2部がより一般的なものであることを証明します。 0.64
From Definition 1, and as the set of policies is closed, there is a policy π∗ such that φK(s, a) = pπ∗ (s ∈ τt+1:t+K+1 | 定義 1 からポリシーの集合が閉じているとき、φK(s, a) = pπ∗ (s ∈ τt+1:t+K+1 | となるようなポリシー π∗ が存在する。 0.76
18 18 0.85
英語(論文から抽出)日本語訳スコア
Figure 10: The training procedure for the reversibility estimator used in RAC. 図10:RACで使用される可逆性推定器の訓練手順。 0.77
st = s, at = a). st = s, at = a) である。 0.92
We begin by noticing that π has a probability at least equal to ρ to copy the policy π∗ in every state. まず、π が ρ と少なくとも等しい確率を持ち、すべての状態におけるポリシー π∗ をコピーすることから始める。 0.75
It can be stated more formally: より正式に述べることができる。 0.68
∀s ∈ S, Ea∼π(s),a∗∼π∗(s)(1a=a(cid:48)) = s ∈ S, Ea π(s), a∗ π∗(s)(1a=a(cid:48)) = 0.69
Then, we have: そして私たちはこう考えます 0.42
(cid:88) a∈A (cid:88) A-A 0.58
pπ(a | s)pπ∗ (a | s) ≥ ρ pπ(a | s)pπ∗ (a | s) ≥ ρ 0.98
pπ∗ (a | s) pπ∗ (a | s) 0.92
= ρ . (cid:16)(cid:88) = ρ . (cid:16)(cid:88) 0.80
a∈A (cid:17) A-A (cid:17) 0.58
(cid:2)1s∈τt+1:t+K+1 | st = s, at = a(cid:3) , (cid:2)1shtmlτt+1:t+k+1 | st = s, at = a(cid:3) , 0.66
φπ,K(s, a) = pπ(s ∈ τt+1:t+K+1 | st = s, at = a) , = Eπ = Est+2,...,st+K+1∼πEst+1∼p(st,at) = Est+3,...,st+K+1∼πE at+1∼π(st+1) φπ,K(s, a) = pπ(s ∈ τt+1:t+K+1 | st = s, at = a) , = Eπ = Est+2,...,st+K+1\πEst+1\p(st,at) = Est+3,...,st+K+1\πE at+1\π(st+1) 0.67
(cid:2)1s∈τt+1:t+K+1 | st = s, at = a(cid:3) , (cid:2)1shtmlτt+1:t+k+1 | st = s, at = a(cid:3) , 0.66
Est+1∼p(st,at) Est+1(st,at) 0.78
st+2∼p(st+1,at+1) st+2-p(st+1,at+1) 0.51
(cid:2)1s∈τt+1:t+K+1 | st = s, at = a(cid:3) , (cid:2)1s∈τt+1:t+K+1 | st = s, at = a(cid:3) , (cid:2)1s∈τt+1:t+K+1 | st = s, at = a, at+1 = a∗ (cid:2)1sgmτt+1:t+k+1 | st = s, at = a(cid:3) , (cid:2)1sgmτt+1:t+k+1 | st = s, at = a(cid:3) , (cid:2)1sgmτt+1:t+k+1 | st = s, at = a, at+1 = a∗ 0.62
Est+1∼p(st,at) Est+1(st,at) 0.78
t+1 = Est+3,...,st+K+1∼πEat+1∼π(st+1),a(cid:48) t+1 = Est+3,...,st+K+1-πEat+1-π(st+1),a(cid:48) 0.58
t+1∼π∗(st+1) t+1,π∗(st+1) 0.52
st+2∼p(st+1,at+1) st+2-p(st+1,at+1) 0.51
≥ Est+3,...,st+K+1∼πEat+1∼π(st+1),a∗ ≥ Est+3,...,st+K+1-πEat+1-π(st+1),a∗ 0.54
(cid:3)1at+1=a∗ ≥ ρ Est+3,...,st+K+1∼πEst+1,st+2∼π∗(cid:2)1s∈τt+1:t+K+1 | st = s, at = a(cid:3) , and iterating the same process, , ≥ ρKEst+1,st+2,...,st+K+1∼π∗(cid:2)1s∈τt+1:t+K+1 | st = s, at = a(cid:3) , (cid:3)1at+1=a∗ ≥ ρ Est+3,...,st+K+1\πEst+1,st+2\π∗(cid:2)1s~τt+1:t+K+1 | st = s, at = a(cid:3) , , ≥ ρKEst+1,st+2,...,st+K+1\π∗(cid:2)1s~τt+1:t+K+1 | st = s, at = a(cid:3) , 0.62
st+2∼p(st+1,at+1) st+2-p(st+1,at+1) 0.51
t+1∼π∗(st+1) t+1,π∗(st+1) 0.52
st+1∼p(st,at) st+1>p(st,at) 0.66
, t+1 ≥ ρKφK(s, a) . , t+1 ≥ ρKφK(s, a)。 0.72
We can conclude using Theorem 2: ¯φπ(s, a) ≥ φπ(s,a) 定理 2 を用いて結論付けることができる: sππ(s, a) ≥ φπ(s, a) 0.77
2 ≥ φπ,K (s,a) 2 ≥ φπ,K (s,a) 0.85
2 ≥ ρK 2 φK(s, a). 2 ≥ ρk 2 φK(s,a。 0.83
B Additional Details About Reversibility-Aware RL b 可逆性認識rlのさらなる詳細 0.54
B.1 Learning a reversibility estimator B.1 可逆性推定器の学習 0.65
We illustrate how the reversibility estimator is trained in Fig 10. 可逆性推定器が図10でどのように訓練されているかを説明する。 0.53
We remind the reader that it is a component that is specific to RAC. 読者に、RAC特有のコンポーネントであることを思い出させる。 0.58
See Algorithm 2 for the detailed procedure of how to train it jointly with the standard precedence estimator and the RL agent. 標準優先順位推定器とRLエージェントとの共同訓練方法の詳細な手順については、アルゴリズム2を参照。 0.79
19 ObservationEmbedding ConcatJoint EmbeddingDegree of ReversibilityTempora l Order Probability 19 可逆性次数確率の観測埋め込みConcatJoint埋め込み 0.74
英語(論文から抽出)日本語訳スコア
Algorithm 1: RAE: Reversibility-Aware Exploration (online) Initialize the agent weights Θ and number of RL updates per trajectory k; Initialize the precedence classifier weights θ, ξ, window size w, threshold β and learning rate η; Initialize the replay buffer B; for each iteration do アルゴリズム1: rae: reversibility-aware exploration (online) エージェントの重み θ と軌道 k あたりのrl 更新数を初期化し、優先分類器の重み θ, ..., window size w, threshold β, learning rate η を初期化し、リプレイバッファ b を初期化する。
訳抜け防止モード: アルゴリズム1 : rae : reversibility - aware exploration (オンライン) エージェント重み θ の初期化 そして軌道 k ごとに rl の更新数; 優先分類子重み θ を初期化する。 ... , window size w , threshold β and learning rate η ; initialize the replay buffer b ; each iteration do
0.90
Incorporate irreversibility penalties τ(cid:48) =(cid:8)xi, ai, ri + rβ incorporate irreversibility penalties τ(cid:48) = (cid:8)xi, ai, ri + rβ 0.89
/* Collect interaction data and train the agent. /* インタラクションデータを収集し、エージェントをトレーニングする。 0.69
Sample a trajectory τ = {xi, ai, ri}i=1...T with the current policy; Store the trajectory in the replay buffer B ← B ∪ τ; Do k RL steps and update Θ; /* Update the precedence classifier. サンプル a の軌跡 τ = {xi, ai, ri}i=1...t と現在のポリシー; 軌跡を再生バッファ b に格納する; k rl ステップを実行して θ を更新する; /* プレシデンス分類器を更新する。 0.78
for each training step do トレーニングのステップごとに 0.77
(cid:0)ψθ,ξ(xi, xi+1)(cid:1)(cid:9) (cid:0)-θ,-(xi, xi+1)(cid:1)(cid:9) 0.86
Sample a minibatch Dbatch from B; /* Self-supervised precedence classification, loss in Eq (9). サンプル a ミニバッチ dbatch from b; /* self-supervised precedence classification, loss in eq (9) 0.82
θ ← θ − η∇θLSSL(Dbatch); ξ ← ξ − η∇ξLSSL(Dbatch); θ= θ→ η→ η→ η→ η→ η→ η→ η→LSSL(Dbatch) 0.57
i=1...T ; i=1 ... t ; 0.63
end end Algorithm 2: RAC: Reversibility-Aware Control (online) Initialize the agent weights Θ and number of RL updates per trajectory k; Initialize the precedence classifier weights θ, ξ, window size w, threshold β and learning rate η; Initialize the reversibility estimator weights ζ; Initialize the replay buffer B; for each iteration do 終わり 終わり アルゴリズム2: RAC: Reversibility-Aware Control (online) エージェントウェイトを初期化し、トラジェクトリkあたりのRL更新数を初期化し、優先順位分類器ウェイトを初期化し、ウィンドウサイズw、閾値β、学習率ηを初期化し、可逆性推定器ウェイトを初期化し、リプレイバッファBを初期化する。
訳抜け防止モード: 終わり 終わり アルゴリズム2 : RAC : RAC : Reversibility - Aware Control (オンライン) エージェントウェイトの初期化 トラジェクトリ k あたりの RL 更新数; 優先順位分類器の重み θ を初期化する。 window size w , threshold β and learning rate η ; initialize the reversibility estimator weights ? ; initialize the replay buffer B ; for each iteration do;
0.79
/* Collect interaction data with the modified control policy and train */ /* 修正された制御ポリシーでインタラクションデータを収集し、*/ をトレーニングします。 0.60
the agent. Sample a trajectory τ under the rejection sampling policy ¯π from eq. エージェントだ eq からの拒絶サンプリングポリシー ~π の下で軌道 τ をサンプリングする。 0.59
(8) ; Store the trajectory in the replay buffer B ← B ∪ τ; Do k RL steps and update Θ; /* Update the precedence classifier. (8) ; リプレイバッファB, B, B, τ; Do k RL をステップして更新する; /* 優先分類器を更新する。 0.69
for each training step do トレーニングのステップごとに 0.77
Sample a minibatch Dbatch from B; /* Self-supervised precedence classification, loss in Eq (9). サンプル a ミニバッチ dbatch from b; /* self-supervised precedence classification, loss in eq (9) 0.82
θ ← θ − η∇θLSSL(Dbatch); ξ ← ξ − η∇ξLSSL(Dbatch); θ= θ→ η→ η→ η→ η→ η→ η→ η→LSSL(Dbatch) 0.57
end /* Update the reversibility estimator, loss in Eq (10). end /* 可逆性推定器の更新、Eq (10) の損失。 0.81
for each training step do トレーニングのステップごとに 0.77
Sample a minibatch Dbatch from B; /* Regression of the precedence classifier probabilities. サンプル a ミニバッチ dbatch from b; /* regression of the precedence classifier probabilities。 0.80
ζ ← ζ − η∇ζLL2(Dbatch, ψθ,ξ); ζ ← ζ − η∇ζLL2(Dbatch, ψθ,ξ); 0.92
end end */ 終わり 終わり */ 0.78
*/ */ */ */ */ */ */ */ 0.85
*/ */ 20 */ */ 20 0.85
英語(論文から抽出)日本語訳スコア
B.2 Pseudo-code for RAE and RAC B.2 RAEとRACの擬似符号 0.65
We give the pseudo-code for the online versions of RAE (Algorithm 1) and RAC (Algorithm 2). オンライン版のRAE (Algorithm 1) とRAC (Algorithm 2) に擬似符号を与える。 0.60
The rejection sampling policy ¯π under approximate reversibility φ and threshold β is expressed as follows: 近似可逆性 φ およびしきい値 β の下での拒絶サンプリングポリシーは次のように表される。 0.74
(cid:26)0 π(a|x)/Z otherwise, with Z =(cid:80) (cid:26)0 π(a|x)/z、z =(cid:80) 0.77
if φ(x, a) < β φ(x, a) < β であれば 0.92
¯π(a|x) = は、π(a|x) = 0.64
a(cid:48)∈A 1{φ(x, a(cid:48)) ≥ β}π(a(cid:48)|x) a(cid:48)・A1{φ(x, a(cid:48)) ≥ β}π(a(cid:48)|x) 0.90
. (8) This is equivalent, on average, to sampling from the policy π until an action that is reversible enough is found. . (8) これは平均して、十分に可逆である作用が見つかるまでポリシー π からサンプリングすることと同値である。 0.81
The loss we use to train the precedence estimator has the expression: LSSL(Dbatch) = precedence estimatorのトレーニングに使用する損失には、次のような表現があります。 0.58
−y log(cid:0)ψθ,ξ(x, x(cid:48))(cid:1) + (1− y) log(cid:0)1− ψθ,ξ(x, x(cid:48))(cid:1), (9) x(x, x(cid:48))(cid:1) + (1− y) log(cid:0)1− > > (x, x(cid:48))(cid:1), (9) 0.83
(cid:88) 1 (cid:88) 1 0.82
|Dbatch| (x,x(cid:48),y)∈Dbatch |Dbatch| (x,x(cid:48),y)・Dbatch 0.72
where y is the binary result of the shuffle, with value 1 if observations were not shuffled (thus in the correct temporal order), and 0 otherwise. y がシャッフルの2次結果である場合、観測値 1 がシャッフルされない場合(正の時間順)に 0 となる。 0.55
Pairs of observations (x, x(cid:48)) can be separated by up to w timesteps. 観測のペア(x, x(cid:48))は、最大wタイムステップで分離することができる。 0.63
The loss we use to train the reversibility estimator (in RAC only) has the expression: 可逆性推定器(RACのみ)の訓練に使用する損失は、以下の式を持つ。 0.77
LL2(Dbatch, ψθ,ξ) = LL2(Dbatch, >θ, >) = 0.89
1 2|Dbatch| 1 2|Dbatch| 0.66
(x,a,x(cid:48))∈Dbatch (x,a,x(cid:48))・Dbatch 0.83
(cid:88) (cid:0)ψθ,ξ(x, x(cid:48)) − φζ(x, a)(cid:1)2 (cid:88) (cid:0)θθ,\(x,x(cid:48)) − φ(x, a)(cid:1)2 0.87
, (10) where (x, a, x(cid:48)) are triples of state, action and next state sampled from the collected trajectories. , (10) ここで (x, a, x(cid:48)) は、収集された軌道からサンプリングされた状態、動作、および次の状態のトリプルである。 0.78
The offline versions of both RAE and RAC can be derived by separating each online algorithm into two parts: 1) training the precedence classifier (and the reversibility estimator for RAC), which is achieved by removing the data collection and RL steps and by using a fixed replay buffer; and 2) training the RL agent, which is the standard RL procedure augmented with modified rewards for RAE, and modified control for RAC, using the classifiers learned in the first part without fine-tuning. raeとracの両方のオフラインバージョンは、それぞれのオンラインアルゴリズムを2つの部分に分けて導出することができる: 1)データ収集とrlステップを取り除き、固定リプレイバッファを使用して達成したprecedence分類器(およびracの可逆推定器)を訓練する、2) raeの修正報酬を追加した標準rlプロシージャであるrlエージェントを訓練する、そしてracの修正された制御。
訳抜け防止モード: RAEとRACのオフライン版は、各オンラインアルゴリズムを2つに分けて導出することができる。 優先分類器(及びRACの可逆性推定器)の訓練 これは データコレクションとRLステップを削除し、固定された再生バッファを使用すること。 and 2 ) training the RL agent, which is the standard RL procedure augmented with modified rewards for RAE。 RACの制御を変更。 最初の部分で学んだ分類器を微調整なしで使う。
0.80
C Experimental Details C.1 Reward-Free Reinforcement Learning C 実験の詳細 C.1 Reward-free Reinforcement Learning 0.76
Cartpole. The observation space is a tabular 4-dimensional vector: (cart position x, cart velocity ˙x, pole angle θ, pole velocity ˙θ). カートポール 観測空間は四次元板状ベクトル(cart position x, cart velocity x, pole angle θ, pole velocity ,θ)である。 0.68
The discrete action space consists of applying a force left or right. 離散アクション空間は、左または右の力を適用することで構成される。 0.66
The episode terminates if the pole angle is more than ±12° (|θ| ≤ 0.209 radians), if the cart position is more than ±2.4, or after 200 time-steps. このエピソードは、極角が±12°(|θ| ≤ 0.209 radians)以上であれば終了し、カートの位置が±2.4以上であれば終了する。 0.69
It is considered solved when the average return is greater than or equal to 195.0 over 100 consecutive trials. 平均リターンが100回の連続試験より195.0以上であれば解決されると考えられる。 0.78
Architecture and hyperparameters. アーキテクチャとハイパーパラメータ。 0.75
The reversibility network inputs a pair of observations and produces an embedding by passing each one into 2 fully connected layers of size 64 followed by ReLU. 可逆性ネットワークは、一対の観測を入力し、それぞれを64の完全連結層に、続いてreluに渡すことで埋め込みを生成する。 0.66
The two embeddings are concatenated, and projected into a scalar followed by a sigmoid activation. 2つの埋め込みは連結され、スカラーに投影され、sgmoidアクティベーションが続く。 0.64
We trained this network doing 1 gradient step every 500 time steps, using the Adam optimizer [24] and a learning rate of 0.01. 私たちは、Adam Optimizationr[24]と学習率0.01を使って、500タイムステップ毎に1段階の勾配ステップでこのネットワークをトレーニングしました。 0.65
We used batches of 128 samples, that we collected from a replay buffer of size 1 million. サイズ100万のリプレイバッファから収集した128のサンプルのバッチを使用しました。
訳抜け防止モード: 128個のサンプルを使って 私たちは100万サイズの再生バッファから収集した。
0.71
The penalization threshold β was fine-tuned over the set [0.5, 0.6, 0.7, 0.8, 0.9] and eventually set to 0.7. ペナリゼーション閾値βは[0.5, 0.6, 0.7, 0.8, 0.9]上で微調整され、最終的に0.7に設定された。 0.59
We notice informally that it was an important parameter. 私たちはそれが重要なパラメータであることに非公式に気づく。 0.53
A low threshold could lead to over penalizing the agent leading the agent to terminate the episode as soon as possible, whereas a high threshold could slow down the learning. 低閾値はエージェントを過度に罰し、エージェントはできるだけ早くエピソードを終了させるが、高い閾値は学習を遅くする可能性がある。 0.59
Regarding PPO, both the policy network and the value network are composed of two hidden layers of size 64. PPOについては、ポリシネットワークとバリューネットワークの両方が、サイズ64の2つの隠れレイヤで構成されている。 0.65
Training was done using Adam and a learning rate of 0.01. トレーニングはAdamを用いて行われ、学習率は0.01である。 0.68
Other PPO hyperparameters were defaults in Raffin et al [35], except that we add an entropy cost of 0.05. 他のPPOハイパーパラメータは Raffin et al [35] のデフォルトであり、エントロピーコストは 0.05 である。 0.71
C.2 Learning Reversible Policies c.2 可逆的政策の学習 0.56
Environment. The environment consists of a 10 × 10 pixel grid. 環境。 環境は10×10ピクセルのグリッドで構成されている。 0.75
It contains an agent, represented by a single blue pixel, which can move in four directions: up, down, left, right. エージェントは1つの青いピクセルで表現され、上、下、左、右の4つの方向に移動することができる。 0.73
The pink pixel 21 ピンクのピクセル 21 0.73
英語(論文から抽出)日本語訳スコア
represents the goal, green pixels grass and grey pixels a stone path. ゴールを表します グリーンピクセルの草とグレイピクセルは石の道です 0.72
Stepping on grass spoils it and the corresponding pixel turns brown, as shown in Fig 5b. 図5bに示すように、草を踏むとそれに対応するピクセルが茶色になる。 0.74
A level terminates after getting to the goal, or after 120 timesteps. レベルはゴールに達した後、または120タイムステップ後に終了する。 0.79
Upon reaching the goal, the agent receives a reward of +1, every other action being associated with 0 reward. 目標に達するとエージェントは+1の報酬を受け取り、他のすべてのアクションは0の報酬に関連付けられる。 0.77
Architecture and hyperparameters. アーキテクチャとハイパーパラメータ。 0.75
The reversibility network takes a pair of observations as input and produces an embedding by passing each observation through 3 identical convolutional layers of kernel size 3, with respectively 32, 64 and 64 channels. 可逆性ネットワークは、一対の観測を入力として、それぞれ32、64、64チャンネルを有するカーネルサイズ3の3つの同一の畳み込み層を通過して埋め込みを生成する。 0.74
The convolutional outputs are flattened, linearly projected onto 64 dimensional vectors and concatenated. 畳み込み出力は平坦で、線形に64次元ベクトルに投影され、連結される。 0.68
The resulting vector is projected into a scalar, which goes through a final sigmoid activation. 得られたベクトルはスカラーに投影され、最終的なシグモイド活性化を経る。 0.76
As done for Cartpole, we trained this network doing 1 gradient step every 500 time steps, using the Adam optimizer with a learning rate of 0.01. cartpoleでは、このネットワークで500時間毎に1段階の勾配ステップをトレーニングし、学習率0.01のadamオプティマイザを使用した。 0.70
We used minibatches of 128 samples, that we collected from a replay buffer of size 1M. 1Mの再生バッファから収集した128個のサンプルのミニバッチを使用した。 0.74
The penalization threshold β was set to 0.8, and the intrinsic reward was weighted by 0.1, such that the intrinsic reward was equal to −0.1 1ψ(st,st+1)>0.8 ψ(st, st+1). ペナリゼーション閾値βは0.8に設定され、内因性報酬は0.1に重み付けされ、内因性報酬は-0.11\(st,st+1)>0.8\(st,st+1)に等しい。 0.70
For PPO, both the policy network and the value network are composed of 3 convolutional layers of size 32, 64, 64. PPOでは、ポリシーネットワークとバリューネットワークは、サイズ32、64、64の3つの畳み込み層で構成されている。 0.71
The output is flattened and passed through a hidden layer of size 512. 出力はフラット化され、サイズ512の隠れ層を通過する。 0.78
Each layers are followed by a ReLU activation. 各レイヤには、reluアクティベーションが続く。 0.53
Policy logits (size 4) and baseline function (size 1) were produced by a linear projection. ポリシーロジット(サイズ4)とベースライン関数(サイズ1)は線形射影によって生成される。 0.81
Other PPO hyperparameters were defaults in Raffin et al [35], except that we add an entropy cost of 0.05. 他のPPOハイパーパラメータは Raffin et al [35] のデフォルトであり、エントロピーコストは 0.05 である。 0.71
C.3 Sokoban We use the Sokoban implementation from Schrader [40]. C.3ソコバン 私たちは Schrader [40] の Sokoban 実装を使用します。 0.61
The environment is a 10x10 grid with a unique layout for each level. 環境は10×10グリッドで、各レベルごとにユニークなレイアウトがある。 0.75
The agent receives a -0.1 reward at each timestep, a +1 reward when placing a box on a target, a -1 reward when removing a box from a target, and a +10 reward when completing a level. エージェントは、各タイムステップで-0.1の報酬、目標にボックスを置く際の+1の報酬、目標からボックスを取り外す際の-1の報酬、レベルを完了すると+10の報酬を受け取る。 0.74
Observations are of size (10, 10, 3). 観察は(10,10,3)である。 0.67
Episodes have a maximal length of 120, and terminate upon placing the last box on the remaining target. エピソードの長さは最大120で、最後のボックスを残りのターゲットに置くと終了する。 0.71
At the beginning of each episode, a level is sampled uniformly from a set of 1000 levels, which prevents agents from memorizing puzzle solutions. 各エピソードの冒頭では、1000レベルのセットから一様にレベルがサンプリングされ、エージェントがパズルの解を記憶するのを防ぐ。 0.64
The set is obtained by applying random permutations to the positions of the boxes and the position of the agent, and is pre-computed for efficiency. このセットは、ボックスの位置とエージェントの位置にランダムな順列を適用して得られ、効率のために事前に計算される。 0.73
All levels feature four boxes and targets. 全てのレベルには4つのボックスとターゲットがある。 0.58
We use the distributed IMPALA implementation from the Acme framework [23] as our baseline agent in these experiments. これらの実験では,Acmeフレームワーク[23]からのIMPALA実装をベースラインエージェントとして使用しています。 0.71
The architecture and hyperparameters were obtained by optimizing for sample-efficiency on a single held-out level. アーキテクチャとハイパーパラメータは単一のホールドアウトレベルでサンプル効率を最適化することで得られた。 0.73
Specifically, the agent network consists of three 3x3 convolutional layers with 8, 16 and 16 filters and strides 2, 1, and 1 respectively; each followed by a ReLU nonlinearity except the last one. 具体的には、エージェントネットワークは3つの3x3畳み込み層からなり、それぞれ8,16,16のフィルタとストライド2,1,1がそれぞれ構成される。 0.63
The outputs are flattened and fed to a 2-layer feed-forward network with 64 hidden units and ReLU nonlinearities. 出力は平ら化され、64個の隠蔽ユニットとReLU非線形性を持つ2層フィードフォワードネットワークに供給される。 0.69
The policy and the value network share all previous layers, and each have a separate final one-layer feed-forward network with 64 hidden units and ReLU nonlinearities as well. ポリシとバリューネットワークは、すべての前のレイヤを共有し、それぞれが64の隠蔽ユニットとReLU非線形性を備えた、独立した1層フィードフォワードネットワークを持っている。 0.60
Regarding agent hyperparameters, we use 64 actors running in parallel, a batch size of 256, an unroll length of 20, and a maximum gradient norm of 40. エージェントハイパーパラメータに関して,64個のアクターが並列に動作し,バッチサイズ256,アンロール長20,最大勾配ノルム40。 0.64
The coefficient of the loss on the value is 0.5, and that of the entropic regularization 0.01. 値の損失係数は0.5であり、エントロピー正則化 0.01 の係数である。 0.81
We use the Adam optimizer with a learning rate of 0.0005, a momentum decay of 0 and a variance decay of 0.99. 学習速度0.0005のアダムオプティマイザ、運動量0のモーメント崩壊、分散減衰0.99のアダムオプティマイザを用いる。
訳抜け防止モード: 我々は学習率0.0005のAdamオプティマイザを使用している。 0 の運動量崩壊と 0.99 の分散崩壊。
0.66
The precedence estimator network is quite similar: it consists of two 3x3 convolutional layers with 8 filters each and strides 2 and 1 respectively; each followed by a ReLU nonlinearity except the last one. 先行推定器ネットワークは、それぞれ8個のフィルタと1個のストライドを持つ2つの3x3畳み込み層で構成され、それぞれが最後の1つを除いてReLU非線形性を持つ。 0.74
The outputs are flattened and fed to a 3-layer feed-forward network with 64 hidden units and ReLU nonlinearities, and a final layer with a single neuron. 出力は平坦化され、64個の隠蔽ユニットとReLU非線形性を持つ3層フィードフォワードネットワークと、単一ニューロンを持つ最終層に供給される。 0.74
We use dropout in the feed-forward network, with a probability of 0.1. フィードフォワードネットワークではドロップアウトを使用しており,その確率は0.1。 0.67
Precedence probabilities are obtained by applying the sigmoid function to the outputs of the last feed-forward layer. 最後のフィードフォワード層の出力にsgmoid関数を適用することにより、precedence確率を求める。 0.72
The precedence estimator is trained offline on 100k trajectories collected from a random agent. 優先推定器は、ランダムエージェントから収集された100k軌道上でオフラインで訓練される。 0.54
It is trained on a total of 20M pairs of observations sampled with a window of size 15, although we observed identical performance with larger sizes (up to 120, which is the maximal window size). 最大ウィンドウサイズである120までの大きさで同じ性能を観察したが、15のウィンドウでサンプリングされた合計2000万対の観測をトレーニングした。
訳抜け防止モード: 合計20m対の観測で訓練され、大きさは15の窓でサンプリングされる。 サイズが大きくなると同じ性能(最大120、最大ウィンドウサイズ)になるのを観察した。
0.77
We use the Adam optimizer with a learning rate of 0.0005, a momentum decay of 0.9, a variance decay of 0.999. 我々は、学習速度0.0005のアダムオプティマイザ、モーメント崩壊0.9、分散崩壊0.999を使用する。 0.63
We also use weight decay, with a coefficient of 0.0001. 重量減衰も用い、係数は0.0001である。 0.66
We use a threshold β of 0.9. しきい値 β は 0.9 である。 0.80
We selected hyperparameters based on performance on validation data. 検証データに基づく性能に基づくハイパーパラメータを選択した。 0.70
22 22 0.85
英語(論文から抽出)日本語訳スコア
C.4 Reversibility-Aware Control in Cartpole+ c.4 cartpole+における可逆性認識制御 0.44
Learning ψ. The model architecture is the same as described in Appendix C.1. 学習する。 モデルアーキテクチャはAppendix C.1で説明されているのと同じである。 0.67
The training is done offline using a buffer of 100k trajectories collected using a random policy. トレーニングは、ランダムポリシーを使用して収集された100kトラジェクトリのバッファを使用してオフラインで行われる。
訳抜け防止モード: トレーニングはオフラインで行われます ランダムポリシーで収集した100k軌道のバッファを使って。
0.67
State pairs are fed to the classifier in batches of size 128, for a total of 3M pairs. 状態ペアは、合計3Mペアに対して、サイズ128のバッチで分類器に供給される。 0.66
We use the Adam optimizer with a learning rate of 0.01. 学習率0.01のadamオプティマイザを用いる。 0.64
We use a window w equal to 200, which is the maximum number of timesteps in our environment. ウィンドウ w は 200 に等しいが、これは我々の環境における最大時間ステップ数である。 0.83
Learning φ. We use a shallow feed-forward network with a single hidden layer of size 64 followed by a ReLU activation. φを学ぶ。 我々は,64の隠蔽層を持つ浅層フィードフォワードネットワークを使用し,その後ReLUアクティベーションを行う。 0.77
From the same buffer of trajectories used for ψ, we sample 100k transitions and feed them to φ in batches of size 128. ψ に使用される同じ軌道のバッファから 100k の遷移をサンプリングし、128 個のバッチで φ に供給する。 0.72
As before, training is done using Adam and a learning rate of 0.01. 前述したように、トレーニングはAdamを使って行われ、学習率は0.01である。 0.62
C.5 DQN and M-DQN in Cartpole+ C.5 DQNとM-DQN 0.79
We use the same architecture for DQN and M-DQN. 私たちはDQNとM-DQNに同じアーキテクチャを使用します。 0.62
The network is a feed-forward network composed of two hidden layers of size 512 followed by ReLU activation. ネットワークは、ReLUアクティベーションに続くサイズ512の2つの隠れた層で構成されるフィードフォワードネットワークである。 0.75
In both cases, we update the online network every 4 timesteps, and the target network every 400 timesteps. どちらの場合も、4段階ごとにオンラインネットワークを更新し、400段階ごとにターゲットネットワークを更新する。 0.71
We use a replay buffer of size 50k, and sample batches of size 128. サイズ50kのリプレイバッファとサイズ128のサンプルバッチを使用します。 0.70
We use the Adam optimizer with a learning rate of 0.001. 我々はAdamオプティマイザを0.001の学習率で使用しています。 0.53
We train both algorithms for 2M timesteps. 2mの時間ステップで両方のアルゴリズムをトレーニングします。 0.48
We run an evaluation episode every 1000 timesteps, and report the maximum performance encountered during the training process. 評価エピソードを1000時間ごとに実行し,トレーニング中に遭遇した最大パフォーマンスを報告する。 0.66
We perform a grid search for the discount factor γ ∈ [0.99, 0.999, 0.9997], and for M-DQN parameters α ∈ [0.7, 0.9, 0.99] and τ ∈ [0.008, 0.03, 0.1]. 割引係数 γ ∈ [0.99, 0.999, 0.9997] と M-DQN パラメータ α ∈ [0.7, 0.9, 0.99] と τ ∈ [0.008, 0.03, 0.1] の格子探索を行う。 0.80
The best performances were obtained for α = 0.9, τ = 0.03, and γ = 0.99. その結果, α = 0.9, τ = 0.03, γ = 0.99 が得られた。 0.74
C.6 Reversibility-Aware Control in Turf c.6 芝生における可逆性認識制御 0.40
Learning ψ. We use the same model architecture as in RAE (Appendix C.2), and the same offline training procedure that was used for Cartpole+ (Appendix C.4). 学習する。 RAE(Appendix C.2)と同じモデルアーキテクチャと、Cartpole+(Appendix C.4)で使用されたオフライントレーニング手順を使用します。 0.74
The window w was set to 120, which is the maximum number of steps in Turf. ウィンドウwは120に設定され、Turfの最大ステップ数である。 0.63
Learning φ. The architecture is similar to ψ, except for the last linear layers: the output of the convolutional layers is flattened and fed to a feed-forward network with one hidden layer of size 64 followed by a ReLU. φを学ぶ。 畳み込み層の出力は平らにされ、1つの隠れた64の層にReLUが続くフィードフォワードネットワークに供給される。
訳抜け防止モード: φを学ぶ。 アーキテクチャは、最後の線形層を除いて s に似ており、畳み込み層の出力は平坦である フィード-フォワードネットワークにフィードされ、64の隠された層が1つ、それにReLUが続く。
0.76
Again, we used the exact same training procedure as in the case of Cartpole+ (Appendix C.4). また、cartpole+(appendix c.4)の場合と全く同じトレーニング手順を使用しました。 0.76
C.7 Safety and Performance Trade-off in Turf C.7 芝の安全・性能トレードオフ 0.57
We investigate the performance-to-safet y trade-off induced by reversibility-awaren ess in Turf. 本稿では,Turfにおける可逆性認識による安全性のトレードオフについて検討する。 0.37
In Fig. 11a, we see that the agent is not able to reach the goal when the threshold is greater than 0.4: with too high a threshold, every action leading to the goal could be rejected. フィギュア。 11a,しきい値が0.4以上の場合,エージェントが目標に達することができないことがわかった。
訳抜け防止モード: フィギュア。 11a,しきい値が0.4 : しきい値が高すぎる場合,エージェントは目標を達成できないことがわかった。 目標に至るすべてのアクションは拒否される可能性がある。
0.52
We also see that it solves the task under lower threshold values, and that lowering β results in faster learning. また,低しきい値下での課題を解決し,βを低下させることで学習が速くなることも確認した。 0.69
On the other hand, Fig 11b shows that achieving zero irreversible side-effects during the learning is only possible when β is greater than 0.2. 一方、図11bは、βが0.2以上である場合にのみ、学習中に不可逆的な副作用がゼロとなることを示す。
訳抜け防止モード: 一方、図11bは ゼロ可逆側を達成する - 学習中の影響は、βが0.2を超える場合にのみ可能である。
0.73
In this setting, the optimal thresholds are thus between 0.2 and 0.3, allowing the agent to learn the new task while eradicating every side-effect. この設定では、最適な閾値は0.2から0.3であり、エージェントはすべての副作用を根絶しながら新しいタスクを学ぶことができる。 0.59
This experiment gives some insights on how to tune β in new environments. この実験は、新しい環境でβをチューニングする方法についての洞察を与える。 0.69
It should be initialized at 0.5 and decreased progressively, until the desired agent behaviour is reached. 0.5で初期化され、所望の作用が到達するまで徐々に減少する。 0.76
This would ensure that the chosen threshold is the maximal threshold such that the environment can be solved, while having the greatest safety guarantees. これにより、選択されたしきい値が最大しきい値であることを保証することができ、環境を最も安全なものにすることができる。
訳抜け防止モード: これにより、選択されたしきい値が環境が解決可能な最大しきい値であることを保証する。 最大の安全を確保しながら
0.81
23 23 0.85
英語(論文から抽出)日本語訳スコア
(a) (b) Figure 11: (a): Reward learning curve for PPO+RAC and several thresholds β (average over 10 random seeds). (a) (b) 図11: (a): PPO+RACといくつかのしきい値β(平均10個のランダムシード)の逆学習曲線。 0.83
A threshold of 0 means actions are never rejected, and corresponds to the standard PPO. 0の閾値は、アクションが決して拒否されず、標準のPPOに対応することを意味する。 0.66
(b): Number of irreversible side-effects (grass pixels stepped on). (b)不可逆的な副作用(グラスピクセルを踏む)の数。 0.70
For β between 0.2 and 0.4, 0 side-effects are induced during the whole learning. βは0.2から0.4の間、学習中に0の副作用が引き起こされる。 0.66
24 02468timesteps (1e4)0.00.20.40.60.8 1.0reward0.00.10.20. 30.402468timesteps (1e4)05101520grass spoiled 24 02468Timesteps (1e4)0.00.20.40.60.8 1.0reward0.00.10.20. 30.402468timesteps (1e4)05101520grass 0.57
                                                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。