論文の概要、ライセンス

# (参考訳) 多段階強化学習のための協調政策の開発 [全文訳有]

Developing cooperative policies for multi-stage reinforcement learning tasks ( http://arxiv.org/abs/2205.05230v1 )

ライセンス: CC BY 4.0
Jordan Erskine, Chris Lehnert(参考訳) 多くの階層的強化学習アルゴリズムは、より高い推論レベルでタスクを解決するために、一連の独立したスキルを基礎として利用している。 これらのアルゴリズムは、独立ではなく協力的なスキルを使う価値を考慮しない。 本稿では,連続エージェントが長期水平多段階タスクを協調的に解決できる協調的協調政策(CCP)手法を提案する。 この方法は、各エージェントのポリシーを変更して、現在のエージェントと次のエージェントの批評家の両方を最大化する。 批評家を協調的に最大化することで、各エージェントはそのタスクに有益な行動を取ることができる。 この手法をマルチルームmazeドメインとpeg in hole manipulationドメインで使用することにより,協調ポリシは,複数のナイーブポリシ,ドメイン全体でトレーニングされた1つのエージェント,その他の逐次hrlアルゴリズムを上回ることができた。

Many hierarchical reinforcement learning algorithms utilise a series of independent skills as a basis to solve tasks at a higher level of reasoning. These algorithms don't consider the value of using skills that are cooperative instead of independent. This paper proposes the Cooperative Consecutive Policies (CCP) method of enabling consecutive agents to cooperatively solve long time horizon multi-stage tasks. This method is achieved by modifying the policy of each agent to maximise both the current and next agent's critic. Cooperatively maximising critics allows each agent to take actions that are beneficial for its task as well as subsequent tasks. Using this method in a multi-room maze domain and a peg in hole manipulation domain, the cooperative policies were able to outperform a set of naive policies, a single agent trained across the entire domain, as well as another sequential HRL algorithm.
公開日: Wed, 11 May 2022 01:31:04 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
IEEE ROBOTICS AND AUTOMATION LETTERS. IEEEロボティクスおよび自動化レター。 0.75
PREPRINT VERSION. ACCEPTED APRIL, 2022 プレプリント版。 アクセプテッド・エイプリル 2022年 0.47
1 Developing cooperative policies for multi-stage reinforcement 1 多段補強のための協調政策の開発 0.57
learning tasks Jordan Erskine1, Chris Lehnert2 学習課題 ジョーダン・アースキン1 クリス・レナート2 0.60
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] G L . s c [ ] G L。 sc [ 0.47
1 v 0 3 2 5 0 1 v 0 3 2 5 0 0.43
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract—Many hierarchical reinforcement 概要-多くの階層的強化 0.39
learning algorithms utilise a series of independent skills as a basis to solve tasks at a higher level of reasoning. 学習アルゴリズムは、より高い推論レベルでタスクを解決するために、一連の独立したスキルを基礎として利用する。
訳抜け防止モード: 学習アルゴリズムは、一連の独立したスキルを基礎として利用する 高いレベルの推論で課題を解決する。
0.79
These algorithms don’t consider the value of using skills that are cooperative instead of independent. これらのアルゴリズムは、独立ではなく協力的なスキルを使う価値を考慮しない。 0.79
This paper proposes the Cooperative Consecutive Policies (CCP) method of enabling consecutive agents to cooperatively solve long time horizon multi-stage tasks. 本稿では,連続エージェントが長期水平多段階タスクを協調的に解決できる協調的協調政策(CCP)手法を提案する。 0.84
This method is achieved by modifying the policy of each agent to maximise both the current and next agent’s critic. この方法は、各エージェントのポリシーを変更して、現在のエージェントと次のエージェントの批評家の両方を最大化する。 0.65
Cooperatively maximising critics allows each agent to take actions that are beneficial for its task as well as subsequent tasks. 批評家を協調的に最大化することで、各エージェントはそのタスクに有益な行動を取ることができる。 0.65
Using this method in a multiroom maze domain and a peg in hole manipulation domain, the cooperative policies were able to outperform a set of naive policies, a single agent trained across the entire domain, as well as another sequential HRL algorithm. この手法をマルチルームmazeドメインとpeg in hole manipulationドメインで使用することにより,協調ポリシは,複数のナイーブポリシ,ドメイン全体でトレーニングされた1つのエージェント,その他の逐次hrlアルゴリズムを上回ることができた。 0.80
Index Terms—Reinforcement Learning index terms - 強化学習 0.66
I. INTRODUCTION I. イントロダクション 0.64
M ANY of the struggles that Reinforcement Learning m 学習の強化に かかわる困難は 0.55
(RL) faces have been addressed within the field of Heirarchical Reinforcement Learning (HRL) [1]. (rl)顔は後進的強化学習(hrl)の分野において対処されている[1]。 0.67
Complex domains such as ant [2], humanoid [3] and swimmer [4] have all had high levels of success with hierarchical methods while non-hierarchical methods have struggled to make progress. アント[2],ヒューマノイド[3],スイマー[4]といった複雑なドメインはいずれも階層的手法で高いレベルの成功を収めている一方,非階層的手法は進歩に苦慮している。 0.72
Hierarchical methods take advantage of the ability of many tasks to be abstracted, solving the problem of high level reasoning separately from low level control [5]. 階層的手法は多くのタスクを抽象化する能力を利用し、低レベル制御とは別に高レベル推論の問題を解決する [5]。 0.78
Many HRL approaches involve developing a series of skills (low level policies) that are used by a high-level controller to solve tasks [6]. 多くのHRLアプローチは、タスク [6] を解決するために高レベルのコントローラが使用する一連のスキル(低レベルポリシー)を開発することを含みます。 0.72
However, these skills cannot always be utilised by a high level controller to optimally solve a task [7]. しかし、これらのスキルは、タスク [7] を最適に解くために、常にハイレベルなコントローラによって利用できない。 0.60
For example, for the task of cutting a cake, a high level controller may employ the skill of grasping a knife, followed by manoeuvring the knife above the cake, and finally lowering the knife to cut the cake. 例えば、ケーキを切る作業では、高レベルの制御装置はナイフをつかみ、次にナイフをケーキの上に操作し、最後にナイフを下げてケーキを切る技術を用いる。 0.58
A skill trained to grasp a knife may choose to grasp the knife by the blade, a behaviour appropriate for other tasks, such as passing a knife safely to a human. ナイフを掴むように訓練された技術は、ナイフを刃で掴むことを選ぶことができ、ナイフを安全に人間に渡すといった他の作業に適した行動をとることができる。 0.69
This method of grasping however would not allow for effective cake cutting. しかし、この方法ではケーキを効果的に切ることはできない。 0.61
The solution to this problem that is proposed in this paper is to use policies that are aware of the next policy’s goal. 本稿で提案されるこの問題の解決策は,次の方針の目標を意識したポリシを使用することである。 0.86
We propose a method of training agents to accommodate for consecutive agents. 本稿では,連続エージェントに対応するための訓練エージェントを提案する。 0.70
This method allows a collection of agents この方法では エージェントの集まりを 0.74
Manuscript received: December, 23, 2021; Revised March, 26, 2022; 写本 2021年12月23日 2022年3月26日改正 0.50
Accepted April, 19, 2022. 2022年4月19日受理。 0.34
This paper was recommended for publication by Editor Jens Kober upon evaluation of the Associate Editor and Reviewers’ comments. 本論文は編集長のJens Kober氏によるアソシエイトエディタとレビュアーのコメントの評価に基づいて,出版に推奨された。 0.70
[Note that the Editor is the Senior Editor who communicated the decision; this is not necessarily the same as the Editor-in-Chief.] (編集長が決定を伝達した編集長であることに注意。これは編集長と必ずしも同じではない。) 0.69
1J. Erskine and C. Lehnert are with the Queensland University of Technology (QUT), Brisbane, Australia and affiliated with Queensland Centre of Robotics (QCR) jordan.erskine@hdr.q ut.edu.au, c.lehnert@qut.edu.au 1J。 アースキンとc. lehnertはオーストラリアのブリスベンにあるクイーンズランド工科大学(qut)に所属しており、クイーンズランド・ロボティクスセンター(qcr)のjordan.erskine@hdr.q ut.edu.au、c.lehnert@qut.edu.au と提携している。
訳抜け防止モード: 1J。 Erskine and C. Lehnert are with the Queensland University of Technology (QUT) オーストラリアのブリスベンでQueensland Centre of Robotics (QCR ) jordan.erskine@hdr.q ut.edu.au,c.lehnert@ qut.edau と提携している。
0.59
Digital Object Identifier (DOI): see top of this page. Digital Object Identifier (DOI): このページの上部を参照。 0.83
Fig. 1. A high level view of the Cooperative Consecutive Policies method works. 図1。 Cooperative Consecutive Policies メソッドの高レベルなビューが動作する。 0.55
Each agent acts within its own subtask, and is informed by the next agent about how to act to assist in completing the subsequent task. 各エージェントは自身のサブタスク内で動作し、次のエージェントから次のタスクの完了を補助する方法について通知される。 0.75
In the maze domain, the next agent can give information about where the dead ends are and how to avoid them. mazeドメインでは、次のエージェントがデッドエンドの場所と回避方法に関する情報を提供することができる。 0.61
to work together more cohesively to complete multi-stage tasks. より密集的に連携して、マルチステージタスクを完了します。 0.51
In our proposed approach, each agent is incentivised to cooperate with the next agent by training the agent’s policy network to produce actions that maximise both the current agent’s critic and the next agent’s critic, weighted by an introduced parameter, the cooperative ratio. 提案手法では,エージェントの政策ネットワークを訓練し,エージェントの批評家と次のエージェントの批評家の両方を最大化するための行動を行うことにより,エージェントが次のエージェントと協力するインセンティブを得る。
訳抜け防止モード: 提案手法では,各エージェントがエージェントの政策ネットワークを訓練することにより,エージェントと協力するインセンティブを付与し,最大化のアクションを生成する。 現在のエージェントの批判と次のエージェントの批判の両方です。 導入されたパラメータによって重み付けされ 協調比は
0.83
By incorporating the next agent’s critic, the current agent can continue to achieve its own goal while also producing a solution that is beneficial for the next agent. 次のエージェントの批判を取り入れることで、現在のエージェントは、次のエージェントに有益なソリューションを作成しながら、自身の目標を達成し続けることができる。 0.77
The contributions produces by this paper are: • A novel method, Cooperative Consecutive Policies (CCP), which enables agents to learn behaviours that maximise reward for their own task while accommodating for subsequent tasks, improving performance for learning multi-stage tasks. 本稿では,新しい手法であるccp(collaborative continuous policy)によって,エージェントが自身のタスクに対する報酬を最大化する行動を学び,その後のタスクに適応し,多段階タスクの学習性能を向上させる。 0.76
• Two case studies in a continuous state/action space maze domain and a robotic manipulation domain. •連続状態/動作空間mazeドメインとロボット操作ドメインの2つのケーススタディ。 0.80
In these experiments, CCP outperformed a set of naive policies (trained to greedily maximise subtask reward), a single agent trained end-to-end on the same task, as well as sequential HRL baseline, using the transition policies method. これらの実験において、cppは、トランジッションポリシー法(transition policy method)を用いて、単一のエージェントが同じタスクでエンドツーエンドでトレーニングした一連のナイーブポリシー(サブタスク報酬を最大化するために訓練された)とシーケンシャルなhrlベースラインよりも優れていた。 0.57
• An ablation study on the effect of varying the cooperative ratio. (4)協力比率の変化による影響に関するアブレーション研究。 0.66
This includes a study on the effect of the cooperative ratio on success rate, as well as the ability to use different cooperative ratios for different cooperative policies. 本研究は, 協力比率が成功率に及ぼす影響と, 異なる協力比率を異なる協力政策に利用する能力についての研究を含む。 0.78
II. RELATED WORK Hierarchical Reinforcement Learning (HRL) has been a long standing field in RL [8]. II。 関連作業 階層強化学習(HRL:hierarchical Reinforcement Learning)は、RL[8]における長期の立位フィールドである。 0.68
HRL methods capitalise on the inherent structure that is present in many tasks. HRL法は、多くのタスクに存在する固有の構造に依存している。 0.64
An important benefit of using HRL is that learning a series of smaller, simpler skills is easier and faster to learn than learning to solve a single, more complex task [9] [10] [11] . HRLを使うことの重要な利点は、より小さくてシンプルなスキルを学ぶことは、単一のより複雑なタスク [9] [10] [11] を解くことを学ぶよりも、より簡単で、より学習しやすいことです。 0.73
英語(論文から抽出)日本語訳スコア
2 IEEE ROBOTICS AND AUTOMATION LETTERS. 2 IEEEロボティクスおよび自動化レター。 0.59
PREPRINT VERSION. ACCEPTED APRIL, 2022 プレプリント版。 アクセプテッド・エイプリル 2022年 0.47
Fig. 2. The structure of a cooperative policy implementation in a N subtask environment. 図2。 n個のサブタスク環境における協調的ポリシー実装の構造 0.68
Each policy is trained using it’s own critic and the subsequent agent’s critic, though the last agent is only trained relative to its own critic. それぞれの政策は、自身の批評家とその後のエージェントの批評家を使って訓練されるが、最後のエージェントは、自身の批判に対してのみ訓練される。 0.68
Each critic is trained using data from the current and previous subtasks, utilising the policy from the agent corresponding to that subtask. 各批評家は、現在のサブタスクと以前のサブタスクのデータを使用してトレーニングされ、そのサブタスクに対応するエージェントからのポリシーを利用する。 0.56
Some hierarchical reinforcement learning approaches have been designed to deal with sequential tasks [12] [13]. シーケンシャルなタスク[12][13]を扱うために,階層的な強化学習アプローチがいくつか設計されている。 0.69
Typically they have the form of using a meta-controller in conjunction with a series of lower-level policies for each subtask [14] [15] [16] [17], which allows for more generalisation, as the series of subtasks can be combined in more versatile ways. 通常、メタコントローラを各サブタスク [14] [15] [16] [17] の下位ポリシーと組み合わせて使用する形で、一連のサブタスクをより汎用的な方法で組み合わせることができるため、より一般化することができる。 0.69
These methods follow one of two approaches; manual definition of each subtask, or learning of the subtasks. これらの手法は、各サブタスクのマニュアル定義とサブタスクの学習という2つのアプローチのいずれかに従う。 0.67
Many HRL algorithms seek to learn skills autonomously. 多くのHRLアルゴリズムは、自律的にスキルを学ぼうとしている。 0.49
These skills are simple behaviours that can be utilised by the high level meta-controller [18] [19] [20] [21]. これらのスキルは、ハイレベルなメタコントローラ [18] [19] [20] [21] で使用できる単純な振る舞いです。 0.65
This approach ensures that the skills are useful for the overall task, but this tends to be very slow to train. このアプローチは、スキルが全体的なタスクに有用であることを保証するが、トレーニングが非常に遅い傾向がある。 0.63
Manually defining subtasks is an another approach to HRL. 手動でサブタスクを定義することはHRLに対する別のアプローチである。 0.55
This approach involves decomposing a task into subtasks manually, defining the reward signal and termination signal for each subtask [18] [22]. このアプローチでは、タスクをサブタスクに手動で分解し、サブタスク毎の報酬信号と終了信号を定義する[18][22]。 0.80
Separate agents are then trained to solve these subtasks independently. 独立したエージェントは、これらのサブタスクを独立して解くように訓練される。 0.45
The fact that these agents are not incentivised to assist in solving the overall task means that without careful engineering of subtasks, suboptimal solutions to tasks are likely [23]. これらのエージェントが、タスク全体の解決にインセンティブを与えていないという事実は、サブタスクの慎重なエンジニアリングがなければ、タスクに対する最適以下のソリューションはおそらく[23]です。 0.60
Our method is designed to overcome the difficulties of engineering subtasks by enabling the agents to cooperate towards completing the task, loosening the requirements of careful design. 本手法は, エージェントが作業完了に向けて協力し, 注意深い設計の要件を緩めることにより, 工学的サブタスクの難しさを克服することを目的としている。 0.66
There are other methods that seek to do a solve a similar problem by learning transition policies between previously learnt subtasks [24] [25], but these transition policies may still struggle if the solution to one subtask is too far from an adequate starting position for the subsequent subtask. これまでに学んだサブタスク間の遷移ポリシーを学習することで、同様の問題を解決する方法が他にもあるが、あるサブタスクへの解がその後のサブタスクの適切な開始位置から遠すぎる場合、これらの遷移ポリシーは依然として苦労する可能性がある。
訳抜け防止モード: 同様の問題を解決する方法は他にもあります 事前学習したサブタスク [24 ] [ 25 ] 間の遷移ポリシーの学習 しかし これらの移行政策は 1つのサブタスクに対するソリューションは、その後のサブタスクの適切な開始位置から遠すぎる。
0.85
III. METHOD critic algorithm, assuming there are consecutive agents used to solve a task. III。 方法 批判アルゴリズム 連続エージェントが タスクを解くのに使われてると仮定する 0.59
The experiments described in this paper were implemented using the SAC algorithm [26] [27]. 本稿では,SACアルゴリズム [26] [27] を用いて実験を行った。 0.77
A. Procedure We consider a modified MDP formulation for solving the problem of picking optimal actions to solve a task. A.手続き 課題解決のための最適な行動を選択する問題を解くための修正MDPの定式化を検討する。 0.74
We assume an environment that involves a task that is decomposed into a series of N subtasks. 我々は、一連のNサブタスクに分解されたタスクを含む環境を仮定する。 0.81
At each timestep t an agent can take an action at from the current state st, which results in the environment evolving to the next state st+1, producing a transition signal U (st) ∈ [1, N ] that determines what subtask is currently active, and produces a series of N reward signals rn,t|n ∈ [1, N ] that correspond to each subtask. 各時間ステップtにおいて、エージェントは現在の状態stから行動を取ることができ、それによって次の状態st+1に進化し、サブタスクが現在アクティブであるかどうかを決定する遷移信号U(st) ∈[1,N]を生成し、各サブタスクに対応する一連のN報酬信号rn,t|n ∈[1,N]を生成する。 0.84
The CCP method requires creating N agents, one for each subtask, that each consist of a policy πn|n ∈ [1, N ] with parameters θn and a critic Qn|n ∈ [1, N ] with parameters βn. CCP法では、各サブタスクごとに N 個のエージェントを作成する必要があり、それぞれパラメータ θn のポリシー πn|n ∈ [1, N ] とパラメータ βn の批判 Qn|n ∈ [1, N ] からなる。 0.87
This method requires that the subsequent agent is known to the current agent. この方法は、後続のエージェントが現在のエージェントに知られなければならない。 0.60
Each critic maximises the discounted sum of future rewards rn from its subtask. 各批評家は、そのサブタスクから将来の報酬の割引金額を最大化する。 0.62
Each policy, rather than maximising the critic that corresponds to their own subtask, instead maximises a convex sum of the current and subsequent critics. それぞれの政策は、自身のサブタスクに対応する批評家を最大化するのではなく、現在の批評家とその後の批評家の凸和を最大化する。
訳抜け防止モード: それぞれの政策は、むしろ 自身のサブタスクに対応する批判を最大化する 代わりに、現在およびその後の批評家の凸和を最大化する。
0.68
The standard critic loss signal (Equation 標準批判的損失信号(等式) 0.82
1) and the updated policy loss signal (Equation 1)及び更新された政策損失信号(等級) 0.82
2) are, ∇βn = 2)は、 βn = である。 0.55
1 M (Qn(s, a) − (rn + γQn(s(cid:48), πn(s(cid:48))))2 1M (Qn(s, a) − (rn + γQn(s(cid:48), πn(s(cid:48)))2 0.43
M(cid:88) 0 ∇θn = M(第88回) 0 また、θn = である。 0.45
1 M M(cid:88) 1M M(第88回) 0.50
0 (−C(Qn, Qn+1)) 0 (-C(Qn, Qn+1)) 0.41
(1) (2) This paper introduces the Cooperative Consecutive Policies (CCP) method. (1) (2) 本稿では,CCP(Cooperative Consecutive Policies)法について述べる。 0.54
In the CCP method, a cooperative policy takes into account the subsequent agent’s critic. ccp法では、後続のエージェントの批判を考慮に入れた共同政策が取られる。 0.64
The critic informs the policy of how good certain actions and states are to complete its task effectively. 批評家は、その仕事を効果的に完了するための特定の行動や状態の良さについてポリシーを知らせる。
訳抜け防止モード: 批評家はいかに良いかの方針を知らせる 特定の行動と国家は、そのタスクを効果的に完了する。
0.56
Using both the subsequent and current critic allows a policy to act to solve the current subtask in a way that allows an effective solution in future subtasks. 後続の批判者と現在の批判者の両方を使用することで、ポリシーは将来のサブタスクにおいて効果的なソリューションを可能にする方法で現在のサブタスクを解決することができる。 0.59
The CCP method is not an algorithm in and of itself. ccp法はそれ自体がアルゴリズムではない。 0.61
It is an algorithmic change that can be applied to any actor これは任意のアクターに適用可能なアルゴリズム上の変更である 0.68
Where M is the number of samples in a batch b sampled from replay buffer Bn, α is the entropy maximisation term, and C is a convex combination of the current and subsequent critics, as defined by: C(Qn, Qn+1) = η ˆQn(s, πn(s))+(1−η) ˆQn+1(s, πn(s)) (3) Where η is the cooperative ratio. M がリプレイバッファ Bn からサンプリングされたバッチ b のサンプル数である場合、α はエントロピー最大化項であり、C は電流とその後の批評家の凸結合であり、C(Qn, Qn+1) = η の Qn(s, πn(s))+(1−η) の Qn+1(s, πn(s)) (3) η は協同比である。 0.84
This ratio affects how much the current policy acts with respect to the subsequent critic, and is a number between 0 and 1. この比率は、現在の政策がその後の批評家に対してどの程度振る舞うかに影響し、0から1の間の数である。 0.68
A cooperative ratio closer to 1 is 1に近い協力比率は 0.67
英語(論文から抽出)日本語訳スコア
ERSKINE et al : CCP ERSKINE et al : CCP 0.42
3 Algorithm 1: Gathering Data Environment with N subtasks and associated reward signals r(1,...,N ); For each subtask initialise an agent An, including a policy πn with parameters θn, a critic Qn with parameters βn, and a replay buffer Bn; while timestep < maxTimestep do 3 アルゴリズム1: n個のサブタスクと関連する報酬信号r(1,...,n)でデータ環境を収集する 各サブタスクは、パラメータθnのポリシーπn、パラメータβnの批評家qn、リプレイバッファbnを含むエージェントanを初期化する。
訳抜け防止モード: 3 アルゴリズム1:Nサブタスクと関連する報酬信号r(1, ..., N )によるデータ環境の収集; 各サブタスクがエージェントAnを初期化する パラメータ θn を持つポリシー πn、パラメータ βn を持つ批判 Qn を含む。 and a replay buffer Bn ; while timestep < maxTimestep do
0.65
s, n ←− reset environment; while not done do s, n--リセット環境; 完了していないが 0.77
a ∼ πn(s); s(cid:48), r(1,...,N ), done ←− environment step with a; record (s, a, r1,...,N , s(cid:48), done) in Bn; s ←− s(cid:48); n ←− U (s(cid:48)); s(cid:48), r(1,...,n ) は a で環境ステップを成す; record (s, a, r1, ...,n , s(cid:48), done) in bn; s が s(cid:48); n が u(s(cid:48)) である。
訳抜け防止モード: a s πn(s ) ; s(cid:48 ), r(1, ...,n ) は s, a, r1, ...,n, である。 s(cid:48 ), done ) in bn ; s ~− s(cid:48 ) ; ; s(cid:48 ) n- u ( s(cid:48 ) ; ;
0.75
end end Fig. 3. 終わり 終わり 図3。 0.69
A 3 room example of the Maze domain. mazeドメインの3部屋の例。 0.61
The first agent begins in the starting area and produces actions to navigate the first room. 最初のエージェントはスタートエリアから始まり、最初の部屋をナビゲートするためのアクションを生成する。 0.75
As the agent enters the next room, the next takes charge to navigate that room. エージェントが次の部屋に入ると、次のエージェントがその部屋をナビゲートする。 0.64
The agent’s scan range is shown in purple. エージェントのスキャン範囲は紫で示されています。 0.80
incentivised to maximise the current critic’s estimate, whereas a cooperative ratio closer to 0 is incentivised to maximise the subsequent critic’s estimate. 現在の批評家の推定を最大化するためにインセンティブが与えられ、一方0に近い協力比率はその後の批評家の推定を最大化するためにインセンティブが与えられる。 0.62
Each Q function is normalised across the batch as denoted by ˆQ using: 各Q関数は、以下のように、バッチ全体にわたって正規化される。 0.62
ˆQ(s, a) = ~Q(s, a) = 0.43
max s(cid:48)∈b max (複数形 maxs) 0.57
Q(s, a) − min s(cid:48)∈b Q(s(cid:48), π(s(cid:48))) − min s(cid:48)∈b Q(s, a) − min s(cid:48)・b Q(cid:48), π(s(cid:48)) − min s(cid:48)・b 0.44
Q(s(cid:48), π(s(cid:48))) Q(s(cid:48), π(s(cid:48)) 0.47
Q(s(cid:48), π(s(cid:48))) Q(s(cid:48), π(s(cid:48)) 0.47
(4) This normalisation is done for each critic separately and is recalculated for each batch. (4) この正規化は批評家ごとに別々に行われ、バッチ毎に再計算される。 0.53
It bounds the critics output to values between 0 and 1. 批評家の出力を0から1の値に制限する。 0.73
This is required to compare the current and subsequent critics, which can produce diverse ranges of values during training. これは、トレーニング中に様々な価値を生み出すことができる現在の批判とその後の批判を比較するために必要である。 0.48
The full algorithmic approach involves simultaneously gathering data (as shown in Algorithm 1) and training on that data (as shown in Algorithm 2). 完全なアルゴリズムアプローチは、(アルゴリズム1で示されるように)データを同時に収集し、そのデータ(アルゴリズム2で示されるように)でトレーニングすることです。 0.67
Refer to appendix (Section VIII) for mathematical analysis of this method. この方法の数学的解析については付録(第8章)を参照のこと。 0.61
This implementation of CCP is designed using SAC as the base algorithm. CCPの実装はベースアルゴリズムとしてSACを用いて設計されている。 0.66
To apply CCP to other algorithms is done by modifying the algorithm’s policy update to using C in place of the traditional critic evaluation, and ensuring each agent is updated using the correct buffer B, as shown in Figure 2. CCPを他のアルゴリズムに適用するには、従来の批評家評価の代わりにアルゴリズムのポリシー更新をCに修正し、図2に示すように、各エージェントが正しいバッファBを使用して確実に更新されるようにする。 0.88
IV. EXPERIMENTAL STUDIES A. Environments IV。 実験的研究 A.環境 0.58
Two domains were used to test the efficacy of the CCP CCPの有効性をテストするために2つのドメインが使用された 0.67
method: the maze domain, and the peg in hole domain. 方法: mazeドメインとpeg in holeドメイン。 0.53
Algorithm 2: Cooperative Training Set of N agents An, each with policy πn with parameters θn, a critic Qn with parameters βn, and a replay buffer Bn; cooperative ratio η; discount factor γ; entropy maximisation term α; for n in (1,...,N) do アルゴリズム2:nエージェントanの協調トレーニングセット、パラメータθnのポリシーπn、パラメータβnの批判qn、リプレイバッファbn、協調比η、ディスカウント因子γ、エントロピー最大化項α、n in (1,...,n) do
訳抜け防止モード: アルゴリズム2 : パラメータ θn のポリシ πn を持つ N エージェント An の協調トレーニングセット パラメータβn、リプレイバッファBn、協調比η、割引係数γ、エントロピー最大化項α、n in ( 1, ... , N ) に対する批評家Qn
0.75
sample minibatch b from Bn of M samples −→ (s, a, r(1,...,N ), s(cid:48), d); for j in (n, n+1) do m のサンプル −→ (s, a, r(1, ..., n ), s(cid:48), d); j in (n, n+1) do からのサンプルミニバッチ b 0.78
(cid:80)(Qj(s, a) − y(rj, s(cid:48), d))2; (cid:80)(qj(s, a) − y(rj, s(cid:48), d))2; 0.47
y(rj, s(cid:48), d) = rj + (1 − d)γ(Qj(s(cid:48), a(cid:48)) − α log(πn(a(cid:48)|s(cid:48)))), a(cid:48) ∼ πn(s(cid:48)); ∇βj = 1 end a(cid:48) ∼ πn(s); for j in (n, n+1) do y(rj, s(cid:48), d) = rj + (1 − d)γ(qj(s(cid:48), a(cid:48)) − α log(πn(a(cid:48)|s(cid:48))), a(cid:48) , πn(s(cid:48)); , βj = 1 end a(cid:48) , πn(s); j in (n, n+1) do に対して。 0.48
M Calculate ˆQn across minibatch b according to Equation 4; M Equation 4 によるミニバッチ b を計算します。 0.60
end C(Qn, Qn+1) = η ˆQn(s, a(cid:48)) + (1 − η) ˆQn+1(s, a(cid:48)); ∇θn = 1 end c(qn, qn+1) = η ]qn(s, a(cid:48)) + (1 − η) ]qn+1(s, a(cid:48)); ]θn = 1 である。 0.82
(cid:80)(α log πn(a(cid:48)|s) − C(Qn, Qn+1)); (cid:80)(α log πn(a(cid:48)|s) − c(qn, qn+1)); 0.45
M end 1) Maze Navigation: M 終わり 1) mazeナビゲーション 0.58
In the maze domain, a series of consecutive rooms were created. 迷路藩では一連の連続した部屋が作られた。 0.57
Each room had two paths to exit into the next room, one of which leads to a dead end. それぞれの部屋は隣の部屋へ出る道が2つあり、そのうちの1つは死に至る。 0.71
Each room was considered a subtask with the goal being to exit the room, with a reward signal dependent on horizontal position, starting at 0 on the left of the room and linearly increasing to 1 at the right of the room. 各部屋は、部屋を出ることを目的としたサブタスクであり、部屋の左側で0から始まり、部屋の右側で直線的に1に増加する水平位置に依存する報酬信号がある。 0.69
The overall task in this domain was to travel through all the rooms to get from one side to the other. この領域での全体的な任務は、部屋を行き来して片方からもう一方に移動することだった。 0.69
The rooms are designed such that an optimal subtask solution would not lead to an optimal overall solution, as the reward signal for each task increases as the position moves to the right, not towards the correct path. 最適なサブタスクソリューションは、適切な経路ではなく右へ位置が移動すると、各タスクに対する報奨信号が増加するため、全体的なソリューションを最適なものにしないように設計されている。 0.75
This domain allows for easy extension in terms of the number of subtasks that are required to be able to solve the overall task. このドメインは、タスク全体を解決するために必要なサブタスクの数という観点で簡単に拡張できる。 0.69
The agent in this domain uses two continuous actions: linear velocity and angular velocity. この領域のエージェントは、線形速度と角速度の2つの連続的なアクションを使用する。 0.64
The agent uses an observation of the environment includes a laser scan as well as a global position in the maze, all of which are continuous measurements. エージェントは、レーザースキャンと迷路のグローバル位置を含む環境を観察し、これらすべてが連続的な測定である。 0.63
This domain is shown in Figure 3. この領域は図3に示されます。 0.73
that 2) Peg in hole manipulation: The second domain used was the peg in hole domain . あれ 2)ホール操作のpeg:2番目のドメインはホールドメインのpegである。
訳抜け防止モード: あれ 2)ホールマニピュレーションにおけるpeg 第2のドメインはpeg in hole domainである。
0.72
In this domain, the task is to use a Panda arm to insert a peg into a hole. この領域では、ペグを穴に挿入するためにパンダアームを使用する。 0.49
This domain is decomposed into two subtasks: grasping and inserting. このドメインは2つのサブタスクに分解される。 0.58
The grasping subtask requires the gripper to establish a grasp on the peg. 把持サブタスクは、グリッパーがペグに把持を確立する必要がある。 0.59
This subtask uses an exponentially decaying reward based on distance between the centre of the peg and the fingers of the gripper. このサブタスクは、ペグの中心とグリッパーの指の間の距離に基づいて指数関数的に減衰する報酬を使用する。 0.66
The second subtask is to move the peg towards and then into the hole. 第2のサブタスクは、ペグを穴に移動させることである。 0.61
The reward for this subtask is also an exponentially decaying reward, this time based on the distance between the centre of the peg and the centre of the hole. このサブタスクに対する報酬は、ペグの中心とホールの中心の間の距離に基づいて、指数関数的に減少する報酬でもある。 0.66
The task is considered a success if the peg is fully inserted into the hole. ペグが完全に穴に挿入された場合、その作業は成功と考えられる。 0.70
英語(論文から抽出)日本語訳スコア
4 IEEE ROBOTICS AND AUTOMATION LETTERS. 4 IEEEロボティクスおよび自動化レター。 0.59
PREPRINT VERSION. ACCEPTED APRIL, 2022 プレプリント版。 アクセプテッド・エイプリル 2022年 0.47
This domain was chosen as it represents a real world example of how completing one subtask can affect the completion of a second subtask. この領域は、1つのサブタスクが2番目のサブタスクの完了にどのように影響するかの実際の例として選ばれた。 0.55
If the peg is grasped by the thin section, then the insertion subtask cannot be completed optimally, as the peg cannot be fully inserted into the hole. 薄い部分でpegをつかむと、pegが穴に完全に挿入できないため、挿入サブタスクを最適に完了できない。
訳抜け防止モード: ペグが細い部分によって把握されている場合、挿入サブタスクは最適に完了できない。 穴にペグが完全に挿入できないからです
0.61
This domain is more complex than the maze domain, due to the higher dimensionality of the state space and the complexity of grasping dynamics この領域はモーズ領域よりも複雑であり、状態空間の次元性が高く、ダイナミクスをつかむ複雑さがあるためである。 0.74
The agent in this domain has two continuous actions: end effector velocity along the axis of actuation and gripper force. この領域のエージェントは、運動軸に沿った端エフェクター速度とグリップ力の2つの連続的な作用を持つ。 0.70
The state that the agent observes is the positions, orientations and velocities of the peg, hole and end effector. エージェントが観察する状態は、peg、ホールおよびエンドエフェクターの位置、向きおよび速度である。 0.62
Both domains in this paper use relatively simple reward signals. 両ドメインとも比較的単純な報酬信号を使用する。 0.63
Though more complex, and potentially more informative, reward signals could be constructed, these simple reward signals were used on purpose to show that using a imperfect reward signal can be overcome using the CCP method. より複雑で、潜在的に有益な報奨信号が構築できたが、これらの単純な報奨信号は、不完全な報奨信号を使用することがcpp法で克服できることを示すために用いられた。
訳抜け防止モード: より複雑で、より情報的な報酬信号を構築することができる。 これらの単純な報酬信号は CCP法により不完全な報奨信号の使用が克服可能であることを示す。
0.72
Engineering a reward signal that can effectively avoid globally suboptimal behaviours is an expensive and sometimes intractable problem, and being able to solve a task without it is a valuable quality. グローバルな最適動作を効果的に回避できる報酬信号のエンジニアリングは、高価で時には難解な問題であり、それなしでタスクを解決できることは、貴重な品質である。 0.69
B. Algorithms Four different methods were evaluated in these domains: • CSAC: The CSAC method is an implementation of Soft Actor Critic (SAC) [26] [27] that utilises the CCP methodology of incentivising cooperative solving of sequential tasks, making a set of Cooperative SAC agents. B.アルゴリズム csac: csac法はソフトアクタ・レビュー (sac) [26] [27] の実装であり、シーケンシャルタスクの協調的解決をインセンティブ化し、一連の協調的なsacエージェントを作成する ccp 方法論を利用している。
訳抜け防止モード: B.アルゴリズム これらの領域で4つの異なる手法が評価された。 : • CSAC : CSAC法はソフトアクター批判(SAC ) [26 ] [27 ]の実装である シーケンシャルなタスクを協調的に解決し、協調的なSACエージェントをセット化するCCP手法を利用する。
0.82
• Naive SAC: The naive method uses a separate SAC agent for each subtask, without any communication between agents. • Naive SAC: Naiveメソッドはサブタスク毎に別々のSACエージェントを使用するが、エージェント間の通信は不要である。 0.76
Each agent is attempting to maximise solely its own reward signal. 各エージェントは、報酬信号のみを最大化しようとしている。 0.65
This method represents the naive approach of treating each agent independently. この方法は、各エージェントを個別に扱うというナイーブなアプローチを表している。 0.50
• SAC: The SAC method involves using a single endto-end SAC agent trained to perform across the whole domain, utilising a reward signal that is the combined reward signal from all the subtasks. • SAC: SACメソッドは、ドメイン全体にわたって実行するために訓練された単一のエンドツーエンドのSACエージェントを使用し、すべてのサブタスクから合成された報酬信号である報酬信号を利用する。 0.73
This method represents the standard RL approach to solving a task. この方法は、タスクを解くための標準RLアプローチを表す。 0.75
• TP: The Transition Policies method [24] used as a baseline. • TP: ベースラインとして使用されるTransition Policiesメソッド [24]。 0.85
This method trains primitive policies to complete each subtask, and then trains transition policies to move from subtask termination states to states that are good initialisations for the subsequent subtask. このメソッドは、各サブタスクを完了させるためにプリミティブポリシをトレーニングし、その後、サブタスク終了状態からその後のサブタスクの適切な初期化状態に移行するための移行ポリシをトレーニングする。 0.58
Hyperparameters and further implementation details are ハイパーパラメータとさらなる実装の詳細は 0.78
listed in Appendix 2 (Section VII). Appendix 2 (Section VII)に記載されている。 0.69
C. Studies 1) Optimal cooperative ratio: The first study tested the performance of the four different methods in both the maze domain and the peg in hole domain. C.研究 1) 最適協調比: 第1報ではマゼドメインとホールドメインのpegの両方における4つの異なる手法の性能を検証した。 0.82
The CCP method requires the selection of a cooperative ratio to determine the trade-off between current and subsequent critics. CCP法は、現在とその後の批評家のトレードオフを決定するために、協力比率の選択を必要とする。
訳抜け防止モード: CCP法は協調比の選択を必要とする 現行とその後の批評家のトレードオフを決定する。
0.73
In the maze domain three different length mazes were tested using a sweep across the cooperative ratio parameter to determine its effects on learning performance, with a similar sweep conducted in the peg in hole domain. mazeドメインでは,peg in holeドメインで同様のスイープを行い,協調比パラメータのスイープを用いて3つの異なる長さの迷路をテストし,学習性能への影響を判定した。 0.75
The best results from these sweeps were このスイープの最良の結果は 0.63
SUCCESS RATE OF EACH METHOD IN MAZE AND PEG IN HOLE DOMAINS 孔領域の迷路とペグにおける各方法の成功率 0.51
TABLE I Method CSAC テーブルI 方法 CSAC 0.43
Cooperative Ratio 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 協力 Ratio 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.46
SAC Naive TP SAC Naive TP 0.42
Maze - Subtasks 2 4 1.00 1.00 1.00 0.31 0.05 0.17 0.42 0.51 0.06 1.00 0.54 0.43 Maze - Subtasks 2 4 1.00 1.00 1.00 0.31 0.05 0.17 0.42 0.51 0.06 1.00 0.54 0.43 0.25
3 0.62 0.23 0.07 0.00 0.06 0.04 0.40 0.16 0.21 0.00 0.20 0.50 3 0.62 0.23 0.07 0.00 0.06 0.04 0.40 0.16 0.21 0.00 0.20 0.50 0.22
0.00 0.00 0.00 0.00 0.00 0.00 0.17 0.50 0.79 0.00 0.14 0.40 0.00 0.00 0.00 0.00 0.00 0.00 0.17 0.50 0.79 0.00 0.14 0.40 0.21
Peg in hole 0.11 0.11 0.11 0.17 0.21 0.34 0.31 0.37 0.40 0.11 0.13 穴の中のペグ 0.11 0.11 0.11 0.17 0.21 0.34 0.31 0.37 0.40 0.11 0.13 0.41
- then compared to the results from using the other methods. - そして、他の方法を使った結果と比較します。 0.58
This study also investigated the sensitivity of the method’s performance with respect to the cooperative ratio. 本研究は,協調比に対する手法の性能の感度についても検討した。 0.76
2) Independent cooperative ratios: The previous experiment used the same cooperative ratio for each agent within each experiment. 2) 独立協力比率: 前回の実験では各実験で同一の協力比率を用いていた。 0.84
An investigation was conducted to determine whether using independent cooperative ratios for each agent would improve the performance, conducted in the 3 room maze domain, in which there are two cooperative agents. 2つの協力エージェントが存在する3室迷路ドメインにおいて,各エージェントに独立した協調比を用いることで,パフォーマンスが向上するかどうかを調査した。 0.85
A parameter sweep was conducted across the cooperative ratio for each cooperative agent to investigate it’s effect on learning performance. 学習成績に影響を及ぼす影響を調査するため,各協調エージェントの協調比でパラメータスイープを行った。 0.72
A. Optimal cooperative ratio V. RESULTS A.最適協調比 V. ResuLTS 0.39
1) Maze navigation: The results for the 2 room experiment within the maze domain are presented in Figure 4 and are summarised in Table I. This experiment shows that the cooperative and naive agents both learn a successful policy in a similar time period, whereas the single agent policy took more than 3 times as long to reach a similar performance. 1)mazeナビゲーション:mazeドメイン内の2つのルーム実験の結果は図4に示され、表1にまとめられている。この実験では、協調エージェントとナイーブエージェントの両方が、同様の期間で成功したポリシーを学習することを示し、一方、1つのエージェントポリシーは、同様のパフォーマンスに達するのに3倍以上の時間を要することを示した。 0.67
The naive agents, though they reached a high level of success quickly, had a decaying performance. ナイーブのエージェントはすぐに高いレベルの成功を収めたが、性能は低下した。 0.70
This is due to the fact that each agent learned a solution to their domain quickly, which included travelling to the further door. これは、各エージェントが、次のドアへの移動を含む、自身のドメインの解決策を素早く学んだためである。 0.66
As each agent refined its solution, the shorter path, which is suboptimal overall, was used more frequently, reducing the performance of the overall task. 各エージェントが解法を洗練するにつれて、全体の最適以下である短いパスがより頻繁に使用され、全体のタスクの性能が低下した。 0.66
This experiment shows that decomposing a task into subtasks is beneficial in terms of training speed, shown by the relative training speed of the cooperative and naive policies compared to the single agent. 本実験では,タスクをサブタスクに分解することは,協調政策とナイーブ政策の相対的な訓練速度によって,学習速度の点で有益であることを示す。 0.78
This experiment also shows that just decomposing a task into subtasks and then treating them as entirely separate problems can lead to suboptimal or decaying solutions. この実験はまた、タスクをサブタスクに分解し、それらを全く別の問題として扱うだけで、最適あるいは崩壊する解が得られることを示した。
訳抜け防止モード: この実験は タスクをサブタスクに分解し 全く別の問題として扱います 最適以下の解や 崩壊する解につながります
0.67
Figures 4 and Table I show the success rates of the three different agent types in the 3 and 4 room mazes, where success is defined as reaching the end of the maze. 図4と表1は、3室の迷路と4室の迷路の3つの異なるエージェントタイプの成功率を示しています。
訳抜け防止モード: 図4と表1は、3室迷路と4室迷路の3つの異なるエージェントタイプの成功率を示しています。 成功は迷路の終わりに達すると定義されます
0.76
In both of these domains, the single agent was not able to learn a successful policy at all within the training window. これらの2つのドメインにおいて、単一のエージェントはトレーニングウィンドウ内では、成功するポリシーを全く学べなかった。 0.71
This shows that the local minima, the dead end paths, proved too difficult for the これは、ローカルなミニマ、デッドエンドパスがあまりに困難であることを示している。 0.55
英語(論文から抽出)日本語訳スコア
ERSKINE et al : CCP ERSKINE et al : CCP 0.42
5 Fig. 4. Success rate in the 2, 3 and 4 room maze domains. 5 図4。 2, 3 4室の迷路ドメインでの成功率。 0.56
Each plot shows the average success rate across several different random seeds, where success is defined as reaching the end of the maze. 各プロットは、いくつかの異なるランダムシードの平均成功率を示し、成功は迷路の終わりに達すると定義される。 0.78
The domains use a cooperative ratio of 0.1, 0.1 and 0.9 respectively. 各ドメインはそれぞれ0.1、0.1、0.9の共役比を使用する。 0.53
13% for single SAC and naive SAC respectively. 13%, SACが1例, SACが1例であった。 0.61
The SAC method has a low performance in this domain due to the fact that it is encouraged to move the peg to the hole as quickly as possible. この領域では,pegをできるだけ早く穴に移動させることが推奨されているため,sac法の性能は低い。 0.63
This requires that the peg be grasped by the narrow section and dragged to the hole. これにより、ペグを狭い部分でつかみ、穴に引きずり込む必要がある。 0.63
Due to this poor grasp location, the task cannot be fully solved. この難解な位置のため、そのタスクは完全には解決できない。 0.73
In the case of the naive SAC, the reward signal that the first agent is getting is to move close to the peg, not necessarily to grasp it. ナイーブ嚢の場合、第一のエージェントが得る報酬信号はペグに近づくことであり、必ずしもそれを把握する必要はない。 0.52
This means that the first agent will hover close to the peg to maximise it’s reward. つまり、最初のエージェントがペグの近くをホバリングし、報酬を最大化する。 0.56
The CCP method avoids both these behavioural pitfalls and completes the task with a relatively high level of success. CCP法はこれらの両方の動作の落とし穴を回避し、比較的高いレベルの成功でタスクを完了させる。 0.57
Table I shows the different success rates in each domain using a range of cooperative ratios. 表1は、各ドメインの異なる成功率を、協力比率の範囲で示します。 0.72
These results show that the cooperative ratio is a sensitive variable, and it’s optimal value is task dependent. これらの結果は,協調比率が敏感な変数であり,最適値はタスク依存であることを示している。 0.79
This shows that is important to use a sweep across the variable to ensure a good performance. これは、変数をスイープして優れたパフォーマンスを保証することが重要であることを示している。 0.62
B. Independent cooperative ratios The results of the individual cooperative ratio experiments are shown in Figure 6. B.独立協力比率 個々の協調比実験の結果を図6に示す。 0.75
This figure shows the average success rate of a set of cooperative policies in a 3 room domain. この図は、3室領域における協調政策の集合の平均成功率を示している。 0.83
In this experiment the first and second policies used independent cooperative ratios, represented along the bottom two axes of Figure 6. この実験では、第1および第2のポリシーは、図6の下の2軸に沿って表される独立した協調比率を用いていた。 0.64
Using the individually tuned cooperative ratios, a higher level of performance was found in the 3 room domain compared to using the same cooperative ratio for both policies. 個別に調整した協調比率を用いて, 双方の政策において同一の協調比率を用いた場合と比較して, 3室領域で高いパフォーマンスが得られた。 0.76
Using cooperative ratios of 0.1 and 1.0 for the first two policies respectively result level of success (78%), outperforming the policies trained using a shared cooperative ratio (54%). 最初の2つの政策で0.1と1.0の協力比率をそれぞれ成功率(78%)とし、共有協力比率(54%)で訓練した政策を上回った。 0.81
in the highest Some insights can be gathered from analysing the effect on success rate when changing the cooperative ratio by looking at Table I and Figure 6. 最高位は 表Iと図6を見ると、協力率を変化させる際の成功率への影響を分析することで、いくつかの洞察を得ることができる。
訳抜け防止モード: 最高位は いくつかの洞察はそこから得られる。 表Iと図6で協調比率を変更する場合の成功率に与える影響の分析
0.74
In all of the shared ratio experiments, using a cooperative ratio around 0.5 produces a low level of performance. すべての共有比実験において、0.5前後の協調比を用いて低レベルの性能が得られる。
訳抜け防止モード: すべての共有比実験において。 約0.5パーセントの協力比率で 低いレベルのパフォーマンスを 生み出します
0.84
In the maze domain, the optimal behaviour for one room compared to the next room involves utilising different paths. 迷路領域では、次の部屋と比べて一つの部屋の最適な振る舞いは異なる経路を利用する。 0.69
Trying to achieve both objectives equally appears to lead to a poor performance overall, as the policy can’t decide which objective to prioritise. 両方の目標を平等に達成しようとすると、政策が優先する目標を決めることができないため、全体的なパフォーマンスが低下するように見える。 0.67
This trend can be seen in the individual cooperative ratio experiments when この傾向は、個別の協調比実験で見ることができる。 0.73
Fig. 5. Success rate in the peg in hole domain. 図5。 ホール領域におけるペグの成功率。 0.63
The plot shows the average success rate across several different random seeds. このプロットは、複数の異なるランダムな種の平均成功率を示している。 0.61
This uses a cooperative ratio of 0.9 これは0.9の協調比率を使用します 0.67
end-to-end SAC agent to overcome within the time frame. 時間枠内で克服するエンドツーエンドのSACエージェント。 0.63
The cooperative agents were able to achieve a consistently higher performance than the naive agents. 協力的エージェントは、ナイーブエージェントよりも一貫して高いパフォーマンスを達成することができた。
訳抜け防止モード: 協力エージェントは可能でした ナイーブエージェントよりも 常に高いパフォーマンスを達成できます
0.71
This demonstrates the value of splitting a task into subtasks and then solving them cooperatively. これはタスクをサブタスクに分割し、それらを協調的に解決する価値を示しています。 0.57
Across all room configurations the TP baseline had a suboptimal level of performance. 全ての部屋構成において、TPベースラインは最適以下の性能を有していた。 0.59
This method learns a set of transition policies that attempts to manipulate the agent from the termination state of a subtask to a good starting state for the subsequent subtask. この方法は、エージェントをサブタスクの終了状態からその後のサブタスクの開始状態まで操作しようとする一連の遷移ポリシーを学習する。 0.72
Due to the way the doorways are arranged within the maze, a subtask that concludes at a dead end is too far from a good starting state for the next subtask for a transition policy to be able to rectify. 戸口が迷路内に配置されているため、デッドエンドで結論付けるサブタスクは、遷移ポリシーが修正できる次のサブタスクにとって良いスタート状態から遠すぎる。 0.55
2) Peg in hole manipulation: Figure 5 shows the results of using each of the 3 methods in the peg in hole domain. 2) 穴の操作におけるペグ: 図5は穴の領域におけるペグの3つの手法のそれぞれを用いた結果を示す。 0.80
CSAC is able reach a far higher level of performance in this domain compared to both the single agent SAC method and the naive method. CSACはシングルエージェントSAC法とナイーブ法の両方と比較して、この領域ではるかに高い性能を達成することができる。 0.71
The low success rate in this domain is due to the difficulty of using contact physics. この領域での成功率が低いのは、接触物理学を使うのが難しいためである。 0.63
If the agent grasps the peg in the wrong way or applies too much force, the peg can be pushed into a pose that is unreachable for the robot, making the episode unsolvable. エージェントが間違った方法でペグをつかんだり、過剰な力を与えたりすると、ペグはロボットにとって到達不能なポーズに押され、エピソードが解決不能になる。 0.60
Despite this, CSAC is able to complete the task 40% of the time, far greater than the other two methods which only achieved a success rate of 11% and それにもかかわらず、CSACはタスクの40%を完了でき、成功率11%しか達成していない他の2つの方法よりもはるかに大きい。 0.73
英語(論文から抽出)日本語訳スコア
6 IEEE ROBOTICS AND AUTOMATION LETTERS. 6 IEEEロボティクスおよび自動化レター。 0.59
PREPRINT VERSION. ACCEPTED APRIL, 2022 プレプリント版。 アクセプテッド・エイプリル 2022年 0.47
defined for each subtask. サブタスクごとに定義されます 0.61
A proposed solution to this is to utilise meta-learning [10] to tune this parameter. 提案する解決策は、このパラメータをチューニングするためにメタラーニング[10]を活用することである。 0.59
This method also only provides direction based on the subsequent subtask’s critic. この方法は、その後のサブタスクの批判に基づく指示のみを提供する。 0.59
If a specific action needs to be taken to solve the overall task and the subsequent agent isn’t aware of it, then CCP will still fail. タスク全体の解決のために特定のアクションを取らなければならず、その後のエージェントがそれを認識していない場合、CCPは依然として失敗する。
訳抜け防止モード: タスク全体を解決するために特定のアクションを取る必要がある場合 その後のエージェントはそれを知らない。 CCPは依然として失敗する。
0.76
Future works will seek to address these issues and make this method more robust. 今後の作業では、これらの問題に対処し、このメソッドをより堅牢にする予定である。 0.51
REFERENCES Fig. 6. The measured success rate in the 3 room maze domain with different cooperative ratios for each cooperative policy. 参考 図6。 協力政策ごとに異なる協力比率の3室迷路領域における成功率を測定した。 0.63
The success rate is an average success rate across the last 10 epochs of each of the 10 different randomly initialised iterations of each configuration. 成功率は、各構成の10の異なるランダムに初期化されたイテレーションの過去10エポックの平均成功率である。 0.77
Blue represents a low success rate and red represents a high success rate. 青は成功率が低いこと、赤は成功率が高いことを表す。 0.72
comparing the cooperative ratios for the first policy. 第1の政策の協力比率を比較する。 0.79
Using a cooperative ratio of 0.5 for either policy leads to lower performance as seen in the shared ratio experiments. いずれの政策に対して0.5の協調比率を用いると、共有比実験に見られるように性能が低下する。 0.72
The independent ratio experiments also show that using a low cooperative ratio for the first policy has a higher success rate than using a high cooperative ratio, similar to results in the 2 room results in the shared ratio experiments. また, 独立比実験では, 第1の方針に対して低い協調比を用いると, 共有比実験における2つの部屋の結果と類似した高い協調率の方が成功率が高いことが示された。 0.83
This likely shows that in the first subtask it is harder to avoid the dead-end without increased direction from the subsequent critic. これは、最初のサブタスクでは、後続の批評家の方向性を増すことなく、デッドエンドを避けることが難しいことを示している可能性が高い。
訳抜け防止モード: これは最初のサブタスクでは 死者を避けるために -後続の批評家の指示を増すことなく終わる。
0.65
VI. CONCLUSION This paper introduces the CCP method for cooperatively solving multi-stage tasks. VI。 結論 本稿では,多段階タスクを協調的に解くCCP手法を提案する。 0.65
This method was tested using the SAC algorithm (implementation called CSAC) in two different domains, the maze domain and the peg in hole domain, and was compared against three other methods; a SAC agent trained end-to-end across the whole domain, a set of naive agents trained to solve each subtask greedily, and a baseline HRL algorithm for sequential tasks, the Transition Policies algorithm. この手法はmazeドメインとpeg in holeドメインの2つの異なるドメインにおけるsacアルゴリズム(csacと呼ばれる実装)を用いてテストされ、sacエージェントがドメイン全体にわたってエンドツーエンドを訓練し、各サブタスクを厳格に解くように訓練されたナイーブエージェントと、シーケンシャルタスクのためのベースラインhrlアルゴリズムであるtransition policyアルゴリズムと、他の3つの方法と比較された。 0.74
The CCP method outperformed each other method in the maze domain, as summarised in Table I and shown in Figure 4. CCP法は,表Iで要約し,図4に示すように,迷路領域において互いに優れていた。 0.70
In the simplest domain (2 room maze), CSAC converged on a solution 4 times faster than the single agent and was able to maintain a high level of performance that the naive policies were not able to maintain, while the TP baseline was unable to solve the domain. 最も単純なドメイン(2部屋迷路)では、CSACは単一エージェントの4倍の速度でソリューションに収束し、単純なポリシーでは維持できない高いレベルのパフォーマンスを維持することができ、TPベースラインではドメインを解くことができなかった。 0.71
In the more complex domains (3 and 4 room mazes), the cooperative policies had a consistently higher level of performance than the naive policies and TP baseline, whereas the single agent was not able to find any solution to the task within 3 million training steps. 複雑なドメイン (3 室と 4室の迷路) では、協調的なポリシーはナイーブなポリシーやtpベースラインよりも一貫して高いパフォーマンスを示し、一方一つのエージェントは300万のトレーニングステップでそのタスクに対する解決策を見つけられなかった。 0.73
Similar results were found in the peg in hole domain (Figure 5), in which the algorithm using CSAC had a success rate approximately 30% higher than the other methods. 同様の結果がホール領域のペグ(図5)で見られ、CSACを用いたアルゴリズムは他の手法よりも30%高い成功率を示した。
訳抜け防止モード: 同様の結果は穴領域のペグ(図5)で発見された。 CSACを用いたアルゴリズムは,他の手法に比べて約30%高い成功率を示した。
0.85
Currently CCP requires that the task be decomposed into subtasks before training. 現在CCPは、タスクをトレーニング前にサブタスクに分解する必要がある。 0.57
There are works that seek to learn the decomposition of a task [18], and these methods could be combined with CCP for a more generalisable algorithm. タスク[18]の分解を学習しようとする研究があり、これらの手法はより一般化可能なアルゴリズムのためにCCPと組み合わせることができる。 0.79
Additionally, the cooperative ratio variable is required to be さらに、協調比率変数が要求される。 0.63
[1] O. Nachum, H. Tang, X. Lu, S. Gu, H. Lee, and S. Levine, “Why does hierarchy (sometimes) work so well in reinforcement learning?” arXiv preprint arXiv:1909.10618, 2019. [1] O. Nachum, H. Tang, X. Lu, S. Gu, H. Lee, S. Levine, “なぜ階層構造が強化学習でうまく機能するのか?” arXiv preprint arXiv:1909.10618, 2019. 0.91
[2] O. Nachum, S. Gu, H. Lee, and S. Levine, “Near-optimal representation learning for hierarchical reinforcement learning,” arXiv preprint arXiv:1810.01257, 2018. O. Nachum, S. Gu, H. Lee, S. Levine, “Near-Optitimal representation learning for Hierarchical reinforcement learning, arXiv preprint arXiv:1810.01257, 2018”。
訳抜け防止モード: [2] O. Nachum, S. Gu, H. Lee とS. Levine氏は述べている。 arXiv preprint arXiv:1810.01257 , 2018。
0.76
[3] X. B. Peng, M. Chang, G. Zhang, P. Abbeel, and S. Levine, “Mcp: Learning composable hierarchical control with multiplicative compositional policies,” arXiv preprint arXiv:1905.09808, 2019. [3]X.B. Peng, M. Chang, G. Zhang, P. Abbeel, S. Levine, “Mcp: 複合可能な階層制御を多成分構成ポリシーで学習する, arXiv preprint arXiv: 1905.09808, 2019”。 0.82
[4] S. Li, R. Wang, M. Tang, and C. Zhang, “Hierarchical reinforcement learning with advantage-based auxiliary rewards,” arXiv preprint arXiv:1910.04450, 2019. 4] s. li, r. wang, m. tang, c. zhang, “hierarchical reinforcement learning with advantage-based auxiliary rewards” arxiv preprint arxiv:1910.04450, 2019”. arxiv と題された。 0.65
[5] M. Wulfmeier, D. Rao, R. Hafner, T. Lampe, A. Abdolmaleki, T. Hertweck, M. Neunert, D. Tirumala, N. Siegel, N. Heess et al , “Dataefficient hindsight off-policy option learning,” in International Conference on Machine Learning. 5] m. wulfmeier, d. rao, r. hafner, t. lampe, a. abdolmaleki, t. hertweck, m. neunert, d. tirumala, n. siegel, n. heess et al, “data efficient hindsight off-policy option learning” in international conference on machine learning” (英語)
訳抜け防止モード: [5 ]Wulfmeier, D. Rao, R. Hafner, T. Lampe, A. Abdolmaleki, T. Hertweck, M. Neunert D. Tirumala, N. Siegel, N. Heess, al, “Dataefficient hindsight off – policy option learning”。 機械学習国際会議に参加して
0.46
PMLR, 2021, pp. 11 340–11 350. PMLR, 2021, pp. 11 340–11 350。 0.94
[6] A. S. Vezhnevets, S. Osindero, T. Schaul, N. Heess, M. Jaderberg, D. Silver, and K. Kavukcuoglu, “Feudal networks for hierarchical reinforcement learning,” in Proceedings of the 34th International Conference on Machine Learning-Volume 70. 6] a. s. vezhnevets氏, s. osindero氏, t. schaul氏, n. heess氏, m. jaderberg氏, d. silver氏, k. kavukcuoglu氏, “feudal networks for hierarchical reinforcement learning” は,第34回機械学習に関する国際会議(international conference on machine learning-volume 70)のセッションで取り上げられた。 0.58
JMLR. org, 2017, pp. 3540–3549. jmlr。 2017年、p.3540-3549。 0.48
[7] O. Nachum, S. S. Gu, H. Lee, and S. Levine, “Data-efficient hierarchical reinforcement learning,” in Advances in Neural Information Processing Systems, 2018, pp. 3303–3313. O. Nachum, S. S. Gu, H. Lee, S. Levine, “Data- efficient hierarchical reinforcement learning” in Advances in Neural Information Processing Systems, 2018, pp. 3303–3313。
訳抜け防止モード: [7] O. Nachum, S. S. Gu, H. Lee データ - 効率的な階層的強化学習 - S. Levine氏の講演より In Advances in Neural Information Processing Systems, 2018, pp. 3303–3313.
0.85
[8] M. Al-Emran, “Hierarchical reinforcement learning: a survey,” Interna- 8]m.al-emran, "階層的強化学習:調査" interna- 0.77
tional journal of computing and digital systems, vol. mental journal of computing and digital systems, vol. (英語) 0.74
4, no. 02, 2015. 4号、2015年、02号。 0.64
[9] R. S. Sutton and A. G. Barto, Reinforcement learning: An introduction. R.S. Sutton と A.G. Barto, Reinforcement Learning: 紹介。 0.69
MIT press, 2018. MIT出版、2018年。 0.71
[10] K. Frans, J. Ho, X. Chen, P. Abbeel, and J. Schulman, “Meta learning K. Frans, J. Ho, X. Chen, P. Abbeel, J. Schulman, “Meta Learning” 0.42
shared hierarchies,” arXiv preprint arXiv:1710.09767, 2017. とarXiv preprint arXiv:1710.09767, 2017。 0.74
[11] S. Iqbal and F. Sha, “Actor-attention-crit ic for multi-agent reinforcement learning,” in International Conference on Machine Learning. 11]s. iqbal氏とf. sha氏は、international conference on machine learningで、“actor-attention-crit ic for multi-agent reinforcement learning”と題した講演を行った。
訳抜け防止モード: 11]s. iqbalとf. sha, “ actor - attention - critic for multi- agent reinforcement learning” 機械学習に関する国際会議に出席。
0.70
PMLR, 2019, pp. 2961–2970. pmlr、2019年、p.2961-2970。 0.55
[12] J. Oh, S. Singh, H. Lee, and P. Kohli, “Zero-shot task generalization with multi-task deep reinforcement learning,” in Proceedings of the 34th International Conference on Machine Learning-Volume 70. 12]j. oh, s. singh, h. lee, p. kohli, “zero-shot task generalization with multi-task deep reinforcement learning”(多タスク深層強化学習によるゼロショットタスク一般化)は、第34回機械学習ボリューム70に関する国際会議(international conference on machine learning-volume 70)で発表された。
訳抜け防止モード: 【12】j・o・s・シン・h・リー】 p. kohli, “ゼロ-ショットタスク一般化とマルチ-タスク深層強化学習” 第34回機械学習国際会議紀要-第70巻
0.70
JMLR. org, 2017, pp. 2661–2670. jmlr。 2017年、p.2661-2670。 0.50
[13] R. T. Icarte, T. Klassen, R. Valenzano, and S. McIlraith, “Using reward machines for high-level task specification and decomposition in reinforcement learning,” in International Conference on Machine Learning, 2018, pp. 2107–2116. a b [13] R. T. Icarte, T. Klassen, R. Valenzano, S. McIlraith氏は, International Conference on Machine Learning, 2018, pp. 2107–2116で,“高レベルのタスク仕様と強化学習の分解に報酬機を使用する”と述べている。
訳抜け防止モード: [13 ]R. T. Icarte, T. Klassen, R. Valenzano そしてS. McIlraith氏は,“高レベルのタスク仕様と強化学習の分解に報酬機を使用する”。 In International Conference on Machine Learning, 2018, pp. 2107–2116.
0.83
[14] P. -L. Bacon, J. Harb, and D. Precup, “The option-critic architecture,” in 14]P。 -L。 Bacon, J. Harb, D. Precup, “The option-critic architecture” 0.37
Thirty-First AAAI Conference on Artificial Intelligence, 2017. 第30回 aaai conference on artificial intelligence, 2017 参加報告 0.63
[15] A. Azarafrooz and J. Brock, “Hierarchical soft actor-critic: Adversarial exploration via mutual information optimization,” arXiv preprint arXiv:1906.07122, 2019. A. Azarafrooz and J. Brock, “Hierarchical soft actor-critic: Adversarial exploration via mutual information optimization” arXiv preprint arXiv:1906.07122, 2019.
訳抜け防止モード: A. Azarafrooz and J. Brock, "階層的ソフトアクター - 批評家 : 相互情報最適化による敵対的探索" arXiv preprint arXiv:1906.07122, 2019
0.84
[16] A. Gupta, V. Kumar, C. Lynch, S. Levine, and K. Hausman, “Relay policy learning: Solving long-horizon tasks via imitation and reinforcement learning,” arXiv preprint arXiv:1910.11956, 2019. A. Gupta, V. Kumar, C. Lynch, S. Levine, K. Hausman, “Relay Policy Learning: Solving long-horizon tasks via mimicion and reinforcement learning”, arXiv preprint arXiv:1910.1 1956, 2019.”[16] A. Gupta, V. Kumar, C. Lynch, S. Levine, K. Hausman。
訳抜け防止モード: [16 ]A. Gupta, V. Kumar, C. Lynch, S. Levine 政策学習のリレー : K. Hausman 長いタスクを模倣と強化学習で解決する”。 arXiv preprint arXiv:1910.1 1956 , 2019
0.87
[17] C. Tessler, S. Givony, T. Zahavy, D. Mankowitz, and S. Mannor, “A deep hierarchical approach to lifelong learning in minecraft,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 17] c. tessler, s. givony, t. zahavy, d. mankowitz, s. mannor, “a deep hierarchy approach to lifelong learning in minecraft”, aaai conference on artificial intelligence, vol. の議事録。
訳抜け防止モード: 【17】c・テスラー、s・ジヴォニー、t・ザハヴィ d. mankowitzとs. mannorは、“minecraftの生涯学習への深い階層的アプローチ”だ。 aaai conference on artificial intelligence(aiaiの人工知能に関する会議)の議事録に書かれている。
0.53
31, no. 1, 2017. 背番号は2017年1月31日。 0.51
[18] J. Andreas, D. Klein, and S. Levine, “Modular multitask reinforcement learning with policy sketches,” in Proceedings of the 34th International Conference on Machine Learning - Volume 70, ser. J. Andreas, D. Klein, S. Levine, “Modular multitask reinforcement learning with policy sketches” in Proceedings of the 34th International Conference on Machine Learning - Volume 70, ser. ]
訳抜け防止モード: 18 ] j. andreas, d. klein, s. levine. 第34回機械学習国際会議(第70巻,ser)紀要「ポリシスケッチによるモジュール型マルチタスク強化学習」
0.59
ICML’17. JMLR.org, 2017, pp. 166–175. ICML'17。 jmlr.org, 2017 pp. 166–175。 0.76
[19] T. Haarnoja, K. Hartikainen, P. Abbeel, and S. Levine, “Latent space policies for hierarchical reinforcement learning,” arXiv preprint arXiv:1804.02808, 2018. T. Haarnoja, K. Hartikainen, P. Abbeel, S. Levine, “Latent Space Policy for Hierarchical reinforcement learning, arXiv preprint arXiv:1804.02808, 2018”。
訳抜け防止モード: [19 ]T. Haarnoja, K. Hartikainen, P. Abbeel, とS. Levine氏は述べている。 arXiv preprint arXiv:1804.02808 , 2018
0.77
[20] D. Esteban, L. Rozo, and D. G. Caldwell, “Hierarchical reinforcement learning for concurrent discovery of compound and composable policies,” arXiv preprint arXiv:1905.09668, 2019. D. Esteban, L. Rozo, D. G. Caldwell, “Hierarchical reinforcement learning for concurrent discovery of compound and composable Policy” arXiv preprint arXiv: 1905.09668, 2019.
訳抜け防止モード: [20 ]D. Esteban, L. Rozo, D. G. Caldwell 「複合・構成可能な政策の同時発見のための階層的強化学習」 arXiv preprint arXiv: 1905.09668 , 2019
0.84
[21] A. Sharma, S. Gu, S. Levine, V. Kumar, and K. Hausman, “Dynamics-aware unsupervised discovery of skills,” arXiv preprint arXiv:1907.01657, 2019. A. Sharma, S. Gu, S. Levine, V. Kumar, K. Hausman, “Dynamics-aware unsupervised discovery of skills” arXiv preprint arXiv:1907.01657, 2019.
訳抜け防止モード: A. Sharma, S. Gu, S. Levine, V. Kumar, K. Hausman, “Dynamic - 教師なしのスキル発見を意識する”。 arXiv preprint arXiv:1907.01657 , 2019
0.84
英語(論文から抽出)日本語訳スコア
ERSKINE et al : CCP ERSKINE et al : CCP 0.42
7 [22] S. Forestier, Y. Mollard, and P. 7 [22]S. Forestier, Y. Mollard, P. 0.43
-Y. Oudeyer, “Intrinsically motivated goal exploration processes with automatic curriculum learning,” arXiv preprint arXiv:1708.02190, 2017. -y。 oudeyer, “intrinsically motivation goal exploration processes with automatic curriculum learning” arxiv preprint arxiv:1708.02190, 2017” (英語) 0.36
[23] C. Florensa, Y. Duan, and P. Abbeel, “Stochastic neural networks for hierarchical reinforcement learning,” arXiv preprint arXiv:1704.03012, 2017. C. Florensa, Y. Duan, P. Abbeel, “Stochastic Neural Network for Hierarchical reinforcement learning” arXiv preprint arXiv:1704.03012, 2017
訳抜け防止モード: [23]C.Florensa,Y. Duan,P. Abbeel 階層的強化学習のための確率的ニューラルネットワーク, arXiv preprint arXiv:1704.03012, 2017
0.86
[24] Y. Lee, S. Y. Lee, S. 0.53
-H. Sun, S. Somasundaram, E. S. Hu, and J. J. Lim, “Composing complex skills by learning transition policies,” in International Conference on Learning Representations, 2018. -h。 sun, s. somasundaram, e. s. hu, j. j. lim両氏は2018年、international conference on learning representationsで、“トランジッションポリシーを学ぶことで複雑なスキルを構築する”と述べた。
訳抜け防止モード: -h。 sun, s. somasundaram, e. s. hu, j. j. lim, 2018年国際学習表現会議「トランジッション政策の学習による複雑なスキルの構成」に参加して
0.74
[25] Y. Lee, J. J. Lim, A. Anandkumar, and Y. Zhu, “Adversarial skill chaining for long-horizon robot manipulation via terminal state regularization,” arXiv preprint arXiv:2111.07999, 2021. Y. Lee, J. J. Lim, A. Anandkumar, Y. Zhu, “Adversarial skill chaining for long-horizon Robot operation through terminal state regularization”, arXiv preprint arXiv:2111.07999, 2021”。
訳抜け防止モード: Y. Lee, J. J. Lim, A. Anandkumar, そしてY. Zhu氏は,“端末状態正規化による長距離水平移動ロボット操作のためのアドバイザリスキルチェーン”だ。 arXiv preprint arXiv:2111.07999, 2021。
0.75
[26] T. Haarnoja, A. Zhou, P. Abbeel, and S. Levine, “Soft actor-critic: Offpolicy maximum entropy deep reinforcement learning with a stochastic actor,” arXiv preprint arXiv:1801.01290, 2018. T. Haarnoja, A. Zhou, P. Abbeel, and S. Levine, “Soft actor-critic: Offpolicy maximum entropy deep reinforcement learning with a stochastic actor, arXiv preprint arXiv:1801.01290, 2018”。
訳抜け防止モード: [26 ]T. Haarnoja, A. Zhou, P. Abbeel, そしてS・レヴィンは「ソフト・アクター - 批評家 : 確率的アクターによる極度のエントロピー深層強化学習」と評した。 arXiv preprint arXiv:1801.01290 , 2018。
0.63
[27] T. Haarnoja, A. Zhou, K. Hartikainen, G. Tucker, S. Ha, J. Tan, V. Kumar, H. Zhu, A. Gupta, P. Abbeel et al , “Soft actor-critic algorithms and applications,” arXiv preprint arXiv:1812.05905, 2018. T. Haarnoja, A. Zhou, K. Hartikainen, G. Tucker, S. Ha, J. Tan, V. Kumar, H. Zhu, A. Gupta, P. Abbeel et al , “Soft actor-critic algorithm and applications” arXiv preprint arXiv:1812.05905, 2018.
訳抜け防止モード: (27)t.haarnoja,a.周,k.hartikainen, g. tucker, s. ha, j. tan, v. kumar, h. zhu, a. gupta, p. abbeel et al, "soft actor - critic algorithms and applications" arxiv プレプリント arxiv:1812.05905, 2018 。
0.64
[28] Vitchyr, “vitchyr/rlkit.” [Online]. Vitchyr, “vitchyr/rlkit.”[オンライン] 0.54
Available: https://github.com/v itchyr/ https://github.com/v itchyr/ 0.29
[29] J. Schulman, S. Levine, P. Abbeel, M. Jordan, and P. Moritz, “Trust region policy optimization,” in International conference on machine learning. 機械学習に関する国際会議で、j. schulman氏、s. levine氏、p. abbeel氏、m. jordan氏、p. moritz氏が“trust region policy optimization”と題した講演を行った。
訳抜け防止モード: J. Schulman, S. Levine, P. Abbeel, M・ジョーダン、P・モリッツ両氏は「信頼地域政策の最適化」 機械学習に関する国際会議。
0.70
PMLR, 2015, pp. 1889–1897. pmlr、2015年、p. 1889-1897。 0.53
rlkit VIII. rlkit VIII。 0.61
APPENDIX 2 This section proves that using a convex combination of two critic functions can be used for the purposes of training a policy to solve a task. 付録2 本項では,2つの批判関数の凸結合を用いることで,課題を解決するための政策を訓練することができることを示す。 0.68
A. Preliminaries Consider a task that has an action space A, a state space S, and a reward signal R. This task can be decomposed into a series of N subtasks such that each subtask has an action space An ⊆ A, a state space Sn ⊆ S, and a reward signal Rn ∈ [0, 1]. A.予備 アクション空間 A, 状態空間 S, 報酬信号 R を持つタスクを考える。このタスクは、各サブタスクがアクション空間 An > A, 状態空間 Sn > S, 報酬信号 Rn ∈ [0, 1] を持つような一連の N サブタスクに分解することができる。 0.75
Each subtask reward signal is defined by, 各サブタスクの報酬信号は、 0.54
Rn(s, a) = Rn(s, a) = 0.42
if s ∈ Sn else if s ∈ Sm|m ∈ [1, n) else if s ∈ Sm|m ∈ (n, N ] The reward signal R for the overall task is defined as, s ∈ Sn が他の場合、s ∈ Sm|m ∈ [1, n) が他の場合、s ∈ Sm|m ∈ (n, N ] 全体のタスクに対する報酬信号 R は、次のように定義される。 0.76
0, 1, ∈ [0, 1], 0, 1, ∈ [0, 1], 0.43
N(cid:88) VII. N(第88回) VII。 0.71
APPENDIX 1 R(s, a) = 付録1 R(s, a) = 0.50
Rn(s, a) The implementation used in this paper was based on the RLkit implementation of SAC [28]. Rn(s, a) 本稿では,SAC[28]のRLkit実装に基づく実装について述べる。 0.54
This implementation utilises an epoch based approach. この実装はエポックベースのアプローチを利用する。 0.55
All methods use the hyperparameters shown in Table II. 全ての方法は表IIに示すハイパーパラメータを使用する。 0.69
These hyperparameters were adapted from the RLkit SAC implementation [28]. これらのハイパーパラメータは、RLkit SAC実装[28]から適応された。 0.60
For each experiment, 5 random seeds were used per method and domain, with 3 used for the transition policies experiments. それぞれの実験では,5つのランダムシードがメソッドとドメイン毎に使用され,3つは遷移ポリシー実験に使用された。 0.74
It is recommended that if this algorithm is recreated, the batch size is at least as large as in this paper, to ensure that the convex combination of critics is effective across each batch. このアルゴリズムを再現すると、各バッチ間の凸結合が有効であることを保証するため、バッチサイズが少なくとも本論文と同程度に大きくなることが推奨される。 0.72
It is also recommended that the discount factor γ is not increased above 0.95, to ensure the method doesn’t become unstable when estimating too far into the future. また、将来まで見積もっても不安定にならないよう、値引き率γを0.05より高くしないことも推奨されている。
訳抜け防止モード: また推奨されている。 割引係数 γ は 0.95 以上は増加しない 将来に近づきすぎると、メソッドが不安定にならないようにする。
0.74
The transition policies baseline was trained using the TRPO [29] algorithm within the implementation provide with its publication [24]. 移行ポリシーのベースラインは実装内のtrpo[29]アルゴリズムを使って[24]でトレーニングされた。 0.64
The plots in this paper that show the performance of the TP algorithm only represent the training of the transition policies themselves. tpアルゴリズムの性能を示すプロットは,トランジッションポリシ自体のトレーニングのみを表している。 0.46
The primitive policies that learned to solve each subtask were trained separately, and then each run that the TP algorithm underwent used this same set of primitive policies. 各サブタスクを解くために学んだプリミティブポリシーは別々に訓練され、TPアルゴリズムが実行した同じプリミティブポリシーを使用していた。 0.75
HYPERPARAMETERS USED IN MAZE DOMAIN マゼドーマに使用されるハイパーパラメーター 0.33
TABLE II Hyperparameter テーブルII ハイパーパラメータ 0.61
Gamma (γ) Gamma (複数形 Gammas) 0.71
Replay buffer length リプレイバッファの長さ 0.66
Batch size Maximum episode length Soft target update factor バッチサイズ 最大エピソード長ソフトターゲット更新因子 0.68
Timesteps per epoch Training loops per epoch 時代ごとの時間経過 時代ごとのトレーニングループ 0.72
Value 0.95 1e6 256 1000 0.005 5000 1000 値 0.95 1e6 256 1000 0.005 5000 1000 0.69
(5) (6) (8) (5) (6) (8) 0.43
(9) which is equivalent to, n=1 (9) と等価です n=1 である。 0.36
R(s, a) = n − 1 + Rn(s, a) R(s, a) = n − 1 + Rn(s, a) 0.42
s ∈ Sn,∀a ∈ A (7) The environment also contains a subtask transition function U (s) ∈ [1, N ) that denotes the current subtask. s ∈ Sn,\a ∈ A (7) この環境はまた、現在の部分タスクを表す部分タスク遷移関数 U (s) ∈ [1, N ) も含む。 0.78
This function will only transition from subtask n to n + 1 when Rn ≥ 1− e, where e is some sensitivity metric. この関数は、Rn ≥ 1− e であるときのみ、サブタスク n から n + 1 に遷移する。
訳抜け防止モード: この関数は Rn ≥ 1− e であるときのみ、サブタスク n から n + 1 に遷移する。 eは感度測定値です
0.81
| A Q-function Q approximates the expected discounted sum | Q関数Qは、期待された割引金額を近似する 0.52
of future rewards, Q(st, at) = R(st, at) + γQ(st+1, π(st+1)) ai ∼ π(si) 将来の報酬の q(st, at) = r(st, at) + γq(st+1, π(st+1)) ai は π(si) である。 0.75
γi−tR(si, ai), γi−tR(si, ai) 0.46
= ∞(cid:88) = ∞(cid:88) 0.42
where π is a policy chosen to maximise the Q function and the environment transitions deterministically. π は Q 関数を最大化するポリシーであり、環境遷移は決定論的に決定される。 0.74
i=t B. Theorem A convex combination of two normalised Q functions can be used in the place of the sum of two Q functions for the purposes of picking an optimal action. i=t B.理論 2つの正規化q関数の凸結合は、最適な作用を選択するために、2つのq関数の和の代わりに使うことができる。 0.58
The original maximisation objective can be recovered using the correct weighting. 元の最大化目標を正しい重み付けを用いて回収することができる。 0.70
A standard policy π selects actions that maximise a Q 標準ポリシー π は Q を最大化する作用を選択する 0.81
function such that, Q(s, π(s)) = max a∈A 機能するのです Q(s, π(s)) = max a∂A 0.49
Q(s, a), (10) Q(s, a) (10) 0.39
This can be decomposed into two Q functions according to Lemma 1. これは、Lemma 1 に従って2つの Q 函数に分解できる。 0.63
1) Lemma 1: A Q function for a task involving multiple sequential subtasks can be be approximated as the sum of two Q functions, each corresponding to the current and subsequent subtasks 1)補題1:複数の逐次サブタスクを含むタスクのq関数は、現在とその後のサブタスクに対応する2つのq関数の和として近似することができる。 0.77
Assume that for each subtask there exists a Q function Qn. 各部分タスクに対して Q 函数 Qn が存在すると仮定する。 0.78
for the current Assume that the cooperative reward signal rcoop subtask n is given by 電流のために 協調報酬信号 rcoop subtask n が与えられると仮定する。 0.73
n n = ηrn + (1 − η)rn+1 rcoop n n = ηrn + (1 − η)rn+1 rcoop 0.45
(11) (11) 0.43
英語(論文から抽出)日本語訳スコア
8 IEEE ROBOTICS AND AUTOMATION LETTERS. 8 IEEEロボティクスおよび自動化レター。 0.59
PREPRINT VERSION. ACCEPTED APRIL, 2022 プレプリント版。 アクセプテッド・エイプリル 2022年 0.47
where rn is the reward signal from the environment for subtask n, and η ∈ [0, 1] is a weighting parameter. ここで rn は部分タスク n の環境からの報酬信号であり、η ∈ [0, 1] は重み付けパラメータである。 0.75
equivalent. Therefore, Using this assumed reward signal, the cooperative Q func- 同等だ そのため この推定報酬信号を用いた協調型q-func- 0.65
tion Cn for a subtask n can be found. サブタスク n に対する tion cn を見つけることができる。 0.72
η = (1 − η) η = (1 − η) 0.43
Ran(Qn) Ran (複数形 Rans) 0.58
Ran(Qn+1) ηRan(Qn+1) = (1 − η)Ran(Qn) Ran(Qn+1) ηRan(Qn+1) = (1 − η)Ran(Qn) 0.46
(22) (23) (24) (22) (23) (24) 0.43
n (s, a) = E C π n (s, a) = E C π 0.43
γtrcoop n |π, s, a γtrcoop n |π, s, a 0.44
(cid:34) ∞(cid:88) (cid:34) ∞(cid:88) (cid:34) ∞(cid:88) (cid:34) ∞(cid:88) 0.38
t=0 (cid:35) (cid:35) t=0 (cid:35)(cid:35) 0.33
= ηE γtrn|π, s, a =ηE γtrn|π, s, a 0.41
+ ... (cid:34) ∞(cid:88) + ... (cid:34)∞(cid:88) 0.37
t=0 (1 − η)E t=0 (1-η)E 0.32
γtrn+1|π, s, a γtrn+1|π, s, a 0.32
(cid:35) t=0 (cid:35) t=0 0.34
= ηQπ n(s, a) + (1 − η)Qπ =ηqπ n(s, a) + (1 − η)Qπ 0.39
n+1(s, a)(cid:4) n+1(s, a)(cid:4) 0.42
η(Ran(Qn+1) + Ran(Qn)) = Ran(Qn) η(Ran(Qn+1) + Ran(Qn)) = Ran(Qn) 0.47
(25) This definition of η is also bounded between 0 and 1. (25) この η の定義も 0 と 1 の間に有界である。 0.58
Using this η, the original maximisation action can be recovered. このηを用いて、元の最大化動作を回復することができる。 0.63
(cid:4) η = (cid:4) η = 0.41
(Ran(Qn+1) + Ran(Qn)) (Ran(Qn+1)+Ran(Qn)) 0.46
Ran(Qn) Ran (複数形 Rans) 0.58
(12) (13) (14) (12) (13) (14) 0.42
This formulation of a cooperative Q function uses the weighted sum of two Q functions for consecutive subtasks. この協調 Q 関数の定式化は、2つの Q 関数の重み付け和を連続部分タスクに使用する。 0.73
The subsequent subtask will always exhibit a smaller Q value, due to the rewards of the subtask being further away through time. 後続のサブタスクは常により小さなQ値を示すが、これはサブタスクの報酬が時間を通してさらに離れているためである。 0.63
The above formulation for a cooperative Q function uses the weighting variable η to represent both this natural weighting of time discounting of rewards, as well as the weighting that represents balancing between the current and subsequent subtasks. 上記の協調Q関数の定式化は、重み変数 η を用いて報酬の時間割引の自然な重み付けと、現在のサブタスクとその後のサブタスクのバランスを表す重み付けの両方を表す。 0.79
To remove this natural time discounting, a normalised cooperative Q function ˆCn is introduced. この自然な時間のディスカウントを取り除くために、正規化された協調q関数が導入された。 0.52
ˆCn = η ˆQn(s, a) + (1 − η) ˆQn+1(s, a), a, a) + (1 − η) sqn+1(s, a) である。 0.65
(15) where ˆQ is a normalisation such that, (15) q はそのような正規化である。 0.54
ˆQ(s, a) = ~Q(s, a) = 0.43
Q(s, a) − min a∈A Q(s, a) − min a∂A 0.41
Q(s, a) − min a∈A Q(s, a) − min a∂A 0.41
max a∈A max (複数形 maxs) 0.28
Q(s, a) Q(s, a) Q(s, a) Q(s, a) 0.42
(16) To simplify this operation, the following functions are defined, (16) この操作を単純化するために、以下の関数が定義される。 0.53
Ran(Q) = max a∈A Ran(Q) = max a∂A 0.40
Q(s, a) − min a∈A Q(s, a) − min a∂A 0.41
Q(s, a) M in(Q) = min a∈A Q(s, a) M in(Q) = min a∂A 0.41
Q(s, a) (17) Q(s, a) (17) 0.43
(18) Using these it can be shown that using the correct η can lead to the same action. (18) これらを用いることで、正しいηを使用することで同じ作用がもたらされることを示すことができる。 0.56
( ˆCn) = max a∈A Qn − M in(Qn) (Qn) = max a∂A Qn − M in(Qn) 0.44
(η ˆQn + (1 − η) ˆQn+1) + (1 − η) (η ˆQn + (1 − η) ˆQn+1) + (1 − η) 0.48
η max a∈A η max (複数形 maxs) 0.35
= max a∈A =マックス・アジャワ 0.46
Ran(Qn) Ran (複数形 Rans) 0.58
(19) Qn+1 − M in(Qn+1) (19)Qn+1 − M in(Qn+1) 0.43
Ran(Qn+1) = max a∈A Ran(Qn+1) =マックス・アジャワ 0.44
η Ran(Qn) η Ran (複数形 Rans) 0.50
Qn + (1 − η) qn+ (1 − η) 0.56
Ran(Qn+1) Qn+1 Ran(Qn+1) qn+1 0.47
(cid:18) (cid:18) (出典:18)(出典:18) 0.64
(cid:19) (20) (cid:19) (20) 0.41
(21) (cid:19) (21) (cid:19) 0.41
The evaluations max( ˆCn) and max(Q) produce the same actions when the coefficients of the convex operation are 評価は、凸演算の係数が同じであるときに、max(\Cn) と max(Q) が同じ作用を生成する。 0.70
                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。