論文の概要、ライセンス

# (参考訳) 双対多目的マニピュレーションにおける固有正則化としての遠絡注意 [全文訳有]

Disentangled Attention as Intrinsic Regularization for Bimanual Multi-Object Manipulation ( http://arxiv.org/abs/2106.05907v1 )

ライセンス: CC BY 4.0
Minghao Zhang, Pingcheng Jian, Yi Wu, Huazhe Xu, Xiaolong Wang(参考訳) 本稿では,スパース報酬を伴う複数のオブジェクト上での複雑な双方向ロボット操作タスクの解決に対処する。 このような複雑なタスクは、異なるロボットによって同時または順次に実現可能なサブタスクに分解され、効率性が向上する。 従来の強化学習アプローチは、主にサブタスクの構成性をモデル化することに焦点を当てていたが、特に2つのロボットの協調戦略を学ぶ際には、2つの基本的な問題は無視されている。 この2つの課題に取り組むために,2つのロボットが分離したサブタスクとオブジェクトに焦点を合わせるための本質的な正規化を提供する,disentangled attentionと呼ばれる新しい手法を提案する。 本手法を4つの双方向操作タスクで評価する。 実験の結果,提案する本質的正則化は,すべての基準よりもはるかに効果的な協調戦略をもたらすため,支配を回避し,政策の対立を低減できることがわかった。 ビデオ付きプロジェクトページはhttps://mehooz.githu b.io/bimanual-attent ion。

We address the problem of solving complex bimanual robot manipulation tasks on multiple objects with sparse rewards. Such complex tasks can be decomposed into sub-tasks that are accomplishable by different robots concurrently or sequentially for better efficiency. While previous reinforcement learning approaches primarily focus on modeling the compositionality of sub-tasks, two fundamental issues are largely ignored particularly when learning cooperative strategies for two robots: (i) domination, i.e., one robot may try to solve a task by itself and leaves the other idle; (ii) conflict, i.e., one robot can easily interrupt another's workspace when executing different sub-tasks simultaneously. To tackle these two issues, we propose a novel technique called disentangled attention, which provides an intrinsic regularization for two robots to focus on separate sub-tasks and objects. We evaluate our method on four bimanual manipulation tasks. Experimental results show that our proposed intrinsic regularization successfully avoids domination and reduces conflicts for the policies, which leads to significantly more effective cooperative strategies than all the baselines. Our project page with videos is at https://mehooz.githu b.io/bimanual-attent ion.
公開日: Thu, 10 Jun 2021 16:53:04 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n u J 1 2 0 2 n u J 0.85
0 1 ] G L . 0 1 ] G L。 0.81
s c [ 1 v 7 0 9 5 0 sc [ 1 v 7 0 9 5 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Disentangled Attention as Intrinsic Regularization for 固有正則化としての遠絡注意 0.55
Bimanual Multi-Object Manipulation 双方向多目的マニピュレーション 0.47
Minghao Zhang∗1, Pingcheng Jian∗1, Yi Wu14, Huazhe Xu3, and Xiaolong Wang2 1Tsinghua University, 2UC San Diego, 3UC Berkeley, 4Shanghai Qi Zhi Institute Minghao Zhang∗1, Pingcheng Jian∗1, Yi Wu14, Huazhe Xu3, Xiaolong Wang2 1 Tinghua University, 2UC San Diego, 3UC Berkeley, 4Shanghai Qi Zhi Institute 0.88
Abstract We address the problem of solving complex bimanual robot manipulation tasks on multiple objects with sparse rewards. 概要 本稿では,スパース報酬を伴う複数のオブジェクト上での複雑な双方向ロボット操作タスクの解決に対処する。 0.54
Such complex tasks can be decomposed into sub-tasks that are accomplishable by different robots concurrently or sequentially for better efficiency. このような複雑なタスクは、異なるロボットによって同時または順次に実現可能なサブタスクに分解され、効率性が向上する。
訳抜け防止モード: そのような複雑なタスクはサブタスクに分解できる 効率を上げるために 同時に あるいは 順次 異なるロボットによって達成されます
0.72
While previous reinforcement learning approaches primarily focus on modeling the compositionality of sub-tasks, two fundamental issues are largely ignored particularly when learning cooperative strategies for two robots: (i) domination, i.e., one robot may try to solve a task by itself and leaves the other idle; (ii) conflict, i.e., one robot can easily interrupt another’s workspace when executing different sub-tasks simultaneously. 従来の強化学習アプローチは、主にサブタスクの構成性をモデル化することに焦点を当てていたが、特に2つのロボットの協調戦略を学ぶ際には、2つの基本的な問題は無視されている。
訳抜け防止モード: 従来の強化学習アプローチは、主にサブタスクの構成性をモデル化することに焦点を当てていた。 特に2つのロボットの協調戦略を学ぶ際には2つの根本的な問題が無視される。 つまり あるロボットが 1人で タスクを解決しようとすると もう一方のアイドルを残します; (ii) 対立です 例えば、あるロボットは、異なるサブタスクを同時に実行するときに、他のロボットのワークスペースを簡単に中断することができる。
0.63
To tackle these two issues, we propose a novel technique called disentangled attention, which provides an intrinsic regularization for two robots to focus on separate sub-tasks and objects. この2つの課題に取り組むために,2つのロボットが分離したサブタスクとオブジェクトに焦点を合わせるための本質的な正規化を提供する,disentangled attentionと呼ばれる新しい手法を提案する。 0.67
We evaluate our method on four bimanual manipulation tasks. 本手法を4つの双方向操作タスクで評価する。 0.59
Experimental results show that our proposed intrinsic regularization successfully avoids domination and reduces conflicts for the policies, which leads to significantly more effective cooperative strategies than all the baselines. 実験の結果,提案する本質的正則化は,すべての基準よりもはるかに効果的な協調戦略をもたらすため,支配を回避し,政策の対立を低減できることがわかった。 0.70
Our project page with videos is at https://mehooz.githu b.io/bimanual-attent ion/. ビデオ付きプロジェクトページはhttps://mehooz.githu b.io/bimanual-attent ion/。 0.58
1 Introduction Consider the bimanual robot manipulation task such as rearranging multiple objects to their target locations in Figure 1 (a). 1 はじめに 図1(a)に示すように、複数の対象を対象場所に並べ替えるといった、双方向のロボット操作タスクを考える。 0.68
This complex and compositional task is very challenging as the agents will first need to reduce the complex task to several sub-tasks (pushing or grasping each object), and then the two agents will need to figure out how to allocate each sub-task to each other (which object each robot should operate on) for better collaboration. この複雑で構成的なタスクは、まずエージェントが複雑なタスクを複数のサブタスク(各オブジェクトをプッシュしたり把握したりする)に還元し、次に2つのエージェントが、協調性を高めるために各サブタスクを互いに割り当てる方法を見出す必要があるため、非常に難しい。 0.80
While training a single RL agent that can solve such compositional tasks has caught research attention recently [7, 44, 11, 28, 32, 31], there are still two main challenges that are barely touched when it comes to tackle bimanual manipulation: (i) domination, i.e., one robot may tend to solve all the sub-tasks while the other robot remains idle, which hurts the overall task solving efficiency; (ii) conflict, i.e., two robots may often try to solve the same sub-task simultaneously, which result in conflict and interruption on shared workspace. While training a single RL agent that can solve such compositional tasks has caught research attention recently [7, 44, 11, 28, 32, 31], there are still two main challenges that are barely touched when it comes to tackle bimanual manipulation: (i) domination, i.e., one robot may tend to solve all the sub-tasks while the other robot remains idle, which hurts the overall task solving efficiency; (ii) conflict, i.e., two robots may often try to solve the same sub-task simultaneously, which result in conflict and interruption on shared workspace. 0.95
One possible solution is to design a task-allocation reward function to encourage better coordination. 1つの可能な解決策は、より良いコーディネーションを促進するためにタスク割り当て報酬関数を設計することである。 0.52
However, it is particularly non-trivial and often sub-optimal to manually design such a reward function for complex problems that contain a large continuous sub-task space, such as the rearrangement task in Figure 1 (a). しかし、図1(a)における再配置タスクのような大きな連続的なサブタスク空間を含む複雑な問題に対して、このような報酬関数を手動で設計するのは、特に非自明でしばしば副最適である。 0.68
Moreover, even with the reward function described above in hand, it remains unclear how to reduce collisions, particularly for the tasks that require two robots to act simultaneously. また、上述の報奨機能にもかかわらず、特に2つのロボットが同時に行動する必要があるタスクにおいて、衝突を減らす方法が不明である。 0.77
For example, in the task shown in Figure 1 (d), one robot needs to push the green door to make space for the other robot to move the blue box to the goal position. 例えば、図1(d)に示すタスクでは、1台のロボットが緑のドアを押して、もう1台のロボットが青い箱をゴール位置に移動するスペースを作る必要があります。 0.85
However, these two robots can easily interrupt and collide with each other when they perform these coordination actions. しかし,これら2つのロボットは,協調動作を行う際に容易に割り込み,衝突することができる。 0.79
∗Equal contribution. Preprint. 等しく貢献する。 プレプリント。 0.64
Under review. レビュー中。 0.58
英語(論文から抽出)日本語訳スコア
Figure 1: Our four bimanual manipulation tasks. 図1: 4つの双方向操作タスク。 0.67
(a) Rearrange the blocks to goal positions. (a)ブロックをゴール位置に並べ替える。 0.64
(b) Stack the blocks into a tower. (b)ブロックを積み重ねて塔にする。 0.78
(c) Open the box and put the block into it. (c)箱を開けて、その中にブロックを入れる。 0.79
(d) Open the green door and push the block through the wall to the goal position. (d)緑の扉を開けて、ブロックを壁からゴール位置に押す。 0.70
Note that there are springs on both the box in (c) and the door in (d). (c)の箱と(d)の扉の両方にバネがあることに注意。 0.66
They will close automatically without continuous external force. 連続的な外部力なしで自動的に閉じる。 0.71
We consider an alternative setting using sparse rewards without explicitly assigning sub-tasks to the robots. 我々は,ロボットにサブタスクを明示的に割り当てることなく,スパース報酬を用いた代替設定を検討する。 0.61
However, this leads to another challenge: How to encourage the agents to explore with limited positive feedbacks? しかし、これは別の課題に繋がる: エージェントが限定的な肯定的なフィードバックで調査するのをどう促すか? 0.65
In the case of a single agent, intrinsic motivation is introduced by using the agent’s prediction error [42, 6] or its uncertainty of the environment [39, 37] to provide rewards for exploration. 単一エージェントの場合、エージェントの予測エラー[42,6]または環境の不確実性[39,37]を用いて、探索に報奨を与えることによって、本質的な動機付けを導入する。 0.70
However, such techniques are not satisfactory in the multi-agent setting due to the exponentially large state space. しかし、このような手法は指数的に大きな状態空間のため、マルチエージェント設定では満足できない。 0.56
In the case of bimanual manipulation, Chitnis et al [9] propose a method leveraging the difference between the actual effect of an action (taken by two robots) and the composition of individual predicted effect from each agent using a forward model. 両手操作の場合、Chitnis et al [9] は、アクションの実際の効果(2つのロボットによってなされる)と、前方モデルを用いて各エージェントの個々の予測効果の組成の違いを利用する方法を提案する。 0.86
While this intrinsic reward encourages the two robots to collaborate for tasks that are hard to achieve by a single robot, it does not address the domination and conflict problems. この本質的な報酬は、2つのロボットが1つのロボットで達成しにくいタスクのために協力することを奨励するが、支配と紛争の問題には対処しない。 0.72
In this paper, we propose a novel object-centric intrinsic regularization for bimanual manipulation which encourages the two robots to work on different sub-tasks and avoid conflicts. 本稿では,2つのロボットが異なるサブタスクで作業し,対立を避けるために,新たなオブジェクト中心の本質的正規化を提案する。 0.75
Instead of designing a new intrinsic reward function, we introduce a simple regularization term for representation learning, which encourages the robots to attend to different objects. 新しい内在的な報酬関数を設計する代わりに、表現学習のための単純な正規化用語を導入し、ロボットが異なるオブジェクトに出席することを奨励します。 0.70
Specifically, we adopt the attention mechanism [55] in both our policy and value networks, where we compute the dot-product between each robot representation and the object representations to obtain a probability distribution. 具体的には、ポリシーと価値ネットワークの両方において注意機構[55]を採用し、各ロボット表現とオブジェクト表現のドット積を計算して確率分布を得る。 0.76
Each robot has its own probability distribution to represent which object it is focusing on. 各ロボットは、対象物を表すために、それぞれ独自の確率分布を持つ。 0.84
We define our intrinsic regularization as minimizing the dot product between the two probability distributions between two robots (i.e., to be orthogonal) in each time step. 我々は,2つのロボット間の2つの確率分布(すなわち直交する)間のドット積の最小化として,我々の固有正則化を定義する。 0.79
By adding this loss function, different robots will be regularized to attend to different objects within their policy representation. この損失関数を追加することで、異なるロボットがポリシー表現内の異なるオブジェクトに出席するように規則化される。 0.74
This forces the policies to tackle sub-tasks over disjoint sets of objects without interfering with each other. これにより、ポリシーは互いに干渉することなく、不連結なオブジェクトの集合に対するサブタスクに取り組むことを余儀なくされる。 0.51
We call our proposed intrinsic regularization disentangled attention. 提案する本質的正則化は注意を乱すものだ。 0.47
We remark that disentangled attention can be also generalized to environments with multiple agents. また,複数のエージェントを持つ環境にも注意をそらすことができる。 0.65
In our experiments, we focus on simulation environments with two Fetch robots manipulating multiple objects. 実験では,複数の物体を操作する2つのフェッチロボットによるシミュレーション環境に着目した。 0.78
As shown in Figure 1, we have an environment that requires the two robots to push each object to a given goal (Figure 1 (a)), an environment which requires the robots to stack the objects into a tower (Figure 1 (b)), an environment which requires one robot to open the box and another robot to put the object inside the box (Figure 1 (c)), and an environment which requires one robot to open the door and another robot to push the object to the goal on the other side of the door (Figure 1 (d)). 図1に示すように、2台のロボットがそれぞれの物体を所定の目標まで押し上げる環境(図1(a))、ロボットが物体を塔に積み上げる環境(図1(b))、1台のロボットが箱を開け、もう1台のロボットが箱の中に物を配置する環境(図1(c))、もう1台のロボットが扉を開け、もう1台のロボットがドアの反対側の目標に向かって物体を押す環境(図1(d))がある。 0.73
In our experiments, we show that our approach not only improves performance and sample efficiency in learning, but also help avoid the domination problem and largely reduces the conflicts between two robots. 私たちの実験では、学習におけるパフォーマンスとサンプル効率を向上させるだけでなく、支配問題を避け、2つのロボット間の衝突をほとんど軽減できることを示した。 0.74
Moreover, the learned policies can also solve the task in fewer steps, which is the significance of bimanual cooperation compared to single-arm manipulation. さらに、学習したポリシーは、シングルアーム操作と比較して双方向の協調が重要であるため、少ないステップでタスクを解決できる。 0.60
2 Related Work Intrinsic motivation in reinforcement learning. 2 強化学習における本質的な動機づけ 0.73
To train RL agents with sparse rewards, Schmidhuber [47] first proposed to motivate the agent to reach state space giving a large model prediction error, which indicates the state is currently unexplored and unseen by the model. スパース報酬でRLエージェントを訓練するために、Schmidhuber [47] が最初に提案したのは、エージェントが大きなモデル予測誤差を与える状態空間に到達する動機付けである。
訳抜け防止モード: スパース報酬でRLエージェントを訓練する。 Schmidhuber [47 ] は、エージェントが大きなモデル予測エラーを与える状態空間に到達する動機付けを最初に提案した。 これは国家が現在 探索されておらず モデルに見当たらないことを示している
0.72
Such a mechanism is also called intrinsic motivation, which provides a reward for agents to explore what makes it curious [41, 3, 4, 40, 22]. このようなメカニズムは本質的動機付けとも呼ばれ、エージェントが[41, 3, 4, 40, 22]興味をそそる要因を探索する報酬を提供する。 0.78
Recently, it has also been shown that the agents can explore with such an intrinsic motivation without extrinsic rewards [42, 6, 5]. 近年, エージェントは, 過剰な報酬 (42, 6, 5]) を伴わずに, このような本質的な動機を探索できることが示されている。 0.56
Besides using prediction error, diverse skills can also be discovered by maximizing the mutual information between skills and states as the intrinsic motivation [13, 48]. 予測誤差の他に、スキルと状態の相互情報を本質的な動機づけとして最大化することで、多様なスキルが発見できる [13, 48]。 0.69
While these approaches have achieved encouraging results in single agent cases, they are not directly applicable to environments with multiple agents. これらのアプローチは単一のエージェントケースで結果を奨励しているが、複数のエージェントを持つ環境に直接適用することはできない。 0.69
In our paper, we propose a novel intrinsic regularization for helping two robots work actively on different sub-tasks. 本稿では,2つのロボットが異なるサブタスクでアクティブに作業するのを助けるための,新しい本質的正規化を提案する。 0.58
2 2 0.85
英語(論文から抽出)日本語訳スコア
Multi-agent collaboration. マルチエージェントコラボレーション。 0.76
Cooperative multi-agent reinforcement learning has exhibited progress over the recent years [14, 20, 43, 36, 16, 52, 46, 50, 56]. 近年, 協調型マルチエージェント強化学習が進展している(14, 20, 43, 36, 16, 52, 46, 50, 56]。 0.76
For example, Lowe et al [36] proposed to extend the DDPG [33] algorithm to the multi-agent setting with decentralized policies and centralized Q functions, which implicitly encourages the agents to cooperate. 例えば、Lowe et al [36]はDDPG[33]アルゴリズムを分散ポリシーと集中型Q関数を備えたマルチエージェント設定に拡張することを提案した。
訳抜け防止モード: 例えば、Lowe et al [36 ] は DDPG[33 ] アルゴリズムを分散ポリシーと集中型 Q 関数を備えたマルチエージェント設定に拡張することを提案した。 エージェントの協力を暗黙的に促します
0.84
However, the problem of exploration still remains as a bottleneck, and in fact even more severe in multi-agent RL. しかし、探索の問題はいまだボトルネックとして残っており、実際はマルチエージェントRLではさらに深刻である。 0.63
Motivated by the previous success on a single agent, intrinsic motivation is also introduced to help multiple agents explore and collaborate [15, 51, 23, 25, 26, 57]. 単一エージェントでの以前の成功に動機づけられた本質的な動機付けは、複数のエージェントが[15,51,23,25,26,57]を探索しコラボレーションするのに役立つ。 0.69
For example, Jaques et al [26] proposed to use social motivation to provide intrinsic rewards which model the influence of one agent on another agent’s decision making. 例えば、Jaques et al [26]は、あるエージェントが他のエージェントの意思決定に与える影響をモデル化する本質的な報酬を提供するために、社会的モチベーションを使うことを提案した。
訳抜け防止モード: 例えば、Jaques et al [26 ]は社会的動機付けの使用を提案した あるエージェントが他のエージェントの意思決定に与える影響をモデル化する固有の報酬を提供する。
0.80
The work that is most related to ours is by Chitnis et al [10] on the intrinsic motivation for synergistic behaviors, which encourages the robots to collaborate for a task that is hard to solve by a single robot. chitnis氏ら[10]は、シナジー的行動の本質的な動機について、ロボットが1つのロボットで解決するのが難しいタスクのために協力することを奨励している。
訳抜け防止モード: 私たちの研究と最も関係のある仕事は、シナジー的行動の本質的な動機に関するChitnis et al [10 ]である。 ロボットは単一のロボットによって解決が難しいタスクのために協力することを奨励します。
0.77
As this paper has not focused on the domination and conflict problems, our work on disentangled attention is a complementary technique to the previous work. 本論文は,支配問題や紛争問題に焦点を合わせていないため,従来の研究を補完する手法である。
訳抜け防止モード: 本稿は、支配問題や紛争問題に焦点を合わせていない。 注意をそらした作業は 以前の作業と相補的なテクニックです。
0.73
Bimanual manipulation. The field of bimanual manipulation has been long studied as a problem involving both hardware design and control [45, 21, 59, 49]. 双方向操作。 双方向操作の分野は、ハードウェア設計と制御の両方に関わる問題として長年研究されてきた[45, 21, 59, 49]。 0.61
In recent years, researchers applied learning based approach to bimanual manipulation. 近年、研究者は双方向操作に学習に基づくアプローチを適用している。 0.61
using imitation learning from demonstrations [62, 17, 54, 60] and reinforcement learning [30, 1, 8, 10, 18]. 実験 [62, 17, 54, 60] と強化学習 [30, 1, 8, 10, 18] による模倣学習を用いた。 0.78
For example, Amadio et al [1] proposed to leverage probabilistic movement primitives from human demonstrations. 例えば、Amadio et al [1]は人間のデモンストレーションから確率的運動プリミティブを活用することを提案した。 0.65
Chitnis et al [8] further introduced a high-level planning policy to combine a set of parameterized primitives to solve complex manipulation tasks. Chitnisらはさらに、パラメータ化されたプリミティブのセットを組み合わせて複雑な操作タスクを解決する、ハイレベルな計画ポリシーを導入した。 0.67
In contrast to these works, our approach does not assume access to pre-defined primitives. これらの作業とは対照的に、このアプローチは事前定義されたプリミティブへのアクセスを前提としない。 0.52
Both robots will learn how to perform each sub-task and how to collaborate without conflicts in an end-to-end manner. 両方のロボットは、各サブタスクの実行方法と、エンドツーエンドで競合することなくコラボレーションする方法を学ぶ。 0.70
Attention mechanism. Our intrinsic motivation is built upon the attention mechanism which has been widely applied in natural language processing [55] and computer vision [58, 12]. 注意機構。 我々の本質的な動機は、自然言語処理 [55] とコンピュータビジョン [58, 12] に広く応用されている注意機構に基づいている。 0.78
Recently, the attention mechanism is also utilized in multi-agent RL to model the communication and collaboration between agents [61, 27, 38, 24, 35]. 近年,マルチエージェントRLにおいても,エージェント間通信や協調のモデル化に注目機構が用いられている[61,27,38,24,35]。 0.86
For example, Long et al [35] proposed to utilize attention to flexibly increase the number of agents and perform curriculum learning for large-scale multi-agent interactions. 例えば、Long et al [35] では、エージェントの数を柔軟に増加させ、大規模マルチエージェントインタラクションのためのカリキュラム学習を行う。 0.69
Li et al [31] adopt the attention mechanism to generalize multi-object stacking with a single arm. Liなど[31]は、単一のアームで多目的積み重ねを一般化するアテンション機構を採用する。
訳抜け防止モード: Li と al [31 ] は注意機構を採用する to generalize multi- object stacking with a single arm。
0.88
In our paper, instead of simply using attention for interaction among hand and a variable number of objects, we propose a novel intrinsic motivation called disentangled attention to encourage the agents to attend on different sub-tasks for better collaboration. 本稿では,手と物体の相互作用に単に注意を向けるのではなく,エージェントが異なるサブタスクに参加するように促し,協調性を高めるために,間欠的注意と呼ばれる新たな本質的動機付けを提案する。 0.75
3 Preliminaries We consider a multi-agent Markov decision process (MDP) [34] with N agents, which can be represented by (S, A, P, R, H, γ). 3前提として,マルチエージェントマルコフ決定過程 (mdp) [34] を (s, a, p, r, h, γ) で表せる n 個のエージェントで考える。 0.70
The state s ∈ S and the action ai ∈ A for agent i are continuous. 状態 s ∈ S とエージェント i に対する作用 ai ∈ A は連続である。 0.79
P (st+1|st, at i) represents the reward function for agent i. H is the horizon and γ is the discount factor. P (st+1|st, at i) はエージェントの報酬関数を表し、H は地平線、γ は割引係数である。 0.78
The policy πθi(at|st) for agent i is parameterized by θi. エージェント i のポリシー πθi(at|st) は θi でパラメータ化される。 0.75
The goal is to learn multi-agent policies maximizing the return. 目標は、リターンを最大化するマルチエージェントポリシーを学ぶことです。 0.61
In this paper, we tackle a two-agent collaboration problem (N = 2), but our method can generalize to more agents. 本稿では,2エージェント協調問題(N = 2)に取り組むが,本手法はより多くのエージェントに一般化できる。 0.82
3.1 Reinforcement Learning with Soft Actor-Critic We adopt the Soft Actor-Critic (SAC) [19] for reinforcement learning (RL) training in this paper. 3.1 ソフト・アクター・クリティカルを用いた強化学習(SAC) [19] を強化学習(RL)訓練に適用する。 0.70
It is an off-policy RL method using the actor-critic framework. これはactor-critic frameworkを使ったオフポリシーrlメソッドである。 0.60
The soft Q-function for agent i is i) parameterized by θi. エージェント i のソフト Q-函数は θi でパラメータ化される。 0.77
For agent i, there are three types of parameters to learn in SAC: Qθi(st, at (i) the policy parameters φi; (ii) a temperature τi; (iii) the soft Q-function parameters θi. エージェント i について、SAC で学ぶべきパラメータは3種類ある: Qθi(st, at (i) ポリシーパラメータ φi; (ii) 温度 τi; (iii) ソフト Q-関数パラメータ θi。 0.87
We can represent the policy optimization objective for agent i as, エージェント i に対するポリシー最適化の目的を表すことができる。 0.75
N ) represents the stochastic transition dynamics. n) は確率的遷移ダイナミクスを表す。 0.75
Ri(st, at Ri (複数形 Ris) 0.65
1, ..., at Jπ(φi) = Est∼D 1... ところで jπ(φi) = エステード 0.79
(1) where τi is a learnable temperature coefficient for agent i, and D is the replay buffer. 1) τi がエージェント i の学習可能な温度係数であり、D が再生バッファである場合。 0.79
It can be learned to maintain the entropy level of the policy: i∼πφi 政策のエントロピーレベルを維持することは、学べる。 0.45
(2) where ¯H is a desired minimum expected entropy. (2) ここで、 sh は所望の最小期待エントロピーである。 0.67
The soft Q-function parameters θi for agent i can be trained by minimizing the soft Bellman residual as, エージェントiのソフトq関数パラメータθiは、ソフトベルマン残差を最小化することで訓練できる。 0.67
(cid:2)−τi log πφi(at (cid:2)−τilog πφi(at) 0.73
i|st) − τi ¯H(cid:3) , i|st) − τi(cid:3) , , 0.75
J(τi) = Eat J(τi) = 食べる 0.88
[τi log πφi(at [τi log πφi(at) 0.80
i∼πφi i|st) − Qθi(st, at i)] いしππi i|st) − Qθi(st, at i)] 0.65
, (cid:104)Eat , (cid:104)eat 0.83
(cid:105) (cid:35) (cid:105) (cid:35) 0.78
1 2 (cid:34) 1 2 (cid:34) 0.82
3 JQ(θi) = E(st,at 3 JQ(θi) = E(st,at) 0.92
i)∼D[ ˆQ(st, at I)-D[ ~Q(st, at) 0.70
i) = Ri(st, at i) = Ri(st, at 0.85
i) + γE (Qθi(st, at i)+γE (Qθi(st, at) 0.87
i) − ˆQ(st, at i) − >Q(st, at 0.83
i))2], max i ∼πφi at+1 i)2] max (複数形 maxs) 0.41
Qθi(st+1, at+1 Qθi(st+1, at+1 0.59
i ) . (3) 私は ) . (3) 0.77
(4) (4) 0.85
英語(論文から抽出)日本語訳スコア
Since we focus on collaborative robotics manipulation tasks, the reward is always shared and synchronized among the agents. 協調ロボット操作タスクにフォーカスしているので、報酬は常にエージェント間で共有され、同期されます。 0.57
That is, if one agent is able to finish a goal and obtain a reward, the other agents will receive the same reward. すなわち、あるエージェントがゴールを完了して報酬を得ることができた場合、他のエージェントは同じ報酬を受け取ることになる。 0.81
3.2 Challenges in Manipulation Tasks 3.2 操作課題の課題 0.73
In robotics manipulation with multiple agents, learning the manipulation skills and the strategy to collaborate at the same time is a very challenging problem. 複数のエージェントによるロボット操作において、操作スキルと同時にコラボレーションする戦略を学ぶことは、非常に難しい問題である。 0.73
In our experiments, we observe two main challenges when applying the SAC directly in bimanual manipulation tasks. 実験では,両立操作タスクにおいて直接sacを適用する際の2つの主な課題を観察した。 0.59
Domination: There is only one agent that is able to learn useful skills. 支配: 有用なスキルを学ぶことができるエージェントは1つだけです。 0.72
Once an agent is able to explore some high-return states, it will quickly learn to exploit the same local region or sub-task. エージェントがいくつかの高リターンな状態を探索できれば、同じローカルリージョンやサブタスクをすぐに利用できるようになる。 0.64
As the reward is shared across agents, the other agents are hindered to explore. 報酬がエージェント間で共有されるので、他のエージェントは探索を妨げられます。 0.70
Conflict: If all the robot arms happen to explore states where the sub-tasks are in close locations, the robot arms will easily interrupt and have conflicts with each other, even leading to collision. 衝突:もしすべてのロボットアームが、サブタスクが近い場所にある状態で探索した場合、ロボットアームは簡単に中断し、互いに衝突し、衝突に至る。 0.68
To overcome these barriers, we introduce a simple yet effective intrinsic regularization during learning, which allows each robot to tell what object or which sub-task to focus on in each time step. これらの障壁を克服するために,各ロボットが各時間ステップでどの物体やどのサブタスクにフォーカスするかを判断できる,シンプルで効果的な本質的な正規化を導入する。 0.70
4 Method Our goal is to design a model and introduce a novel intrinsic regularization to better train the policy for bimanual manipulation tasks with many objects. 4 方法 我々のゴールは、モデルの設計と、多くのオブジェクトで双方向操作タスクのポリシーをより良く訓練するために、新しい本質的な正規化を導入することである。 0.67
We hope the agents can automatically learn to allocate the workload, and should also avoid the problems of domination and conflict. エージェントが自動的にワークロードを割り当てることを学び、支配や紛争の問題を回避できることを期待しています。 0.66
In this section, we will first introduce our base network architecture with the attention mechanism motivated by [55]. 本稿ではまず,[55]を動機としたアテンション機構を備えたベースネットワークアーキテクチャについて紹介する。 0.80
Based on this architecture, we will then introduce our disentangled attention intrinsic regularization and how to perform reinforcement learning with this regularization. このアーキテクチャに基づき、我々は本質的正規化と、この正規化で強化学習を行う方法を紹介します。 0.58
4.1 Network Architecture 4.1 ネットワークアーキテクチャ 0.73
We will first introduce our policy network architecture, which takes the state as input and outputs the action. まずは、状態を入力として、アクションを出力するポリシネットワークアーキテクチャを紹介します。
訳抜け防止モード: まず、ポリシーネットワークアーキテクチャを紹介します。 状態を入力として、アクションを出力します。
0.64
Then we will introduce the Q-function which shares a similar structure. 次に、同様の構造を持つQ-函数を紹介する。 0.69
For simplicity, we omit superscript time t when there is no ambiguity. 単純さのため、曖昧さがなければスーパースクリプト時間tを省略する。 0.58
We can then represent the state as s = [s1, . すると状態は s = [s1, ] と表現できる。 0.69
. . , sN , sN +1, . . . , sN , sN +1, 。 0.87
. . , sN +M ] where the first N entities represent the state of the robot arms, the next M entities represent the states of the objects. . . , sn + m ] 最初の n 個のエンティティがロボットアームの状態を表し、次の m 個のエンティティがオブジェクトの状態を表す。 0.81
For agent i, we have a set of state encoder functions {fi,1(·), . エージェント i に対して、状態エンコーダ関数 {fi,1(·) の集合が存在する。 0.76
. . , fi,N (·), fi,N +1(·), . . . , fi,n (·), fi,n +1(·), . 0.74
. . , fi,N +M (·)} corresponding to the input states, as shown in Figure 2. . . 図2に示すように、入力状態に対応するfi,N +M(·)}。 0.81
Each state encoder function fi,j(·) takes the state sj as the input and outputs a representation (512-D) for the state in our policy network. 各状態エンコーダ関数fi,j(·)は、状態sjを入力として、ポリシーネットワーク内の状態を表す表現(512-d)を出力する。 0.81
We use a 2-layer multilayer perceptron (MLP) to model fi,j(·). 2層多層パーセプトロン(mlp)を用いてfi,j(·)をモデル化する。 0.69
While there are N + M state encoder functions, there are only three sets of parameters (visualized by three different colors in Figure 2): (i) the parameters of the state encoder for agent i itself fi,i(·); (ii) the parameters of the other agents fi,j(·), (1 ≤ j ≤ N, i (cid:54)= j) (shared); (iii) the parameters of all the object entities fi,j(·), (N + 1 ≤ j ≤ N + M ) (shared). n + m 状態エンコーダ関数があるが、パラメータのセットは3つしかない(図2): (i) エージェント i のための状態エンコーダのパラメータ fi,i(·); (ii) 他のエージェント fi,j(·), (1 ≤ j ≤ n, i (cid:54)= j) (shared); (iii) すべてのオブジェクトエンティティのパラメータ fi,j(·), (n + 1 ≤ j ≤ n + m ) (shared) である。
訳抜け防止モード: n + m 状態エンコーダ関数はあるが、パラメータのセットは 3 つしかない(図 2 ) : (i ) エージェント i 自体 fi の状態エンコーダのパラメータは 3 つの異なる色で視覚化されている)。 i ( · ) ; ( ii ) 他のエージェント fi のパラメータ j ( · ), ( 1 ≤ j ≤ n, i ( cid:54)= j ) (共有 ) ; ( iii ) すべての対象エンティティ fi のパラメータ j ( · ), ( n + 1 ≤ j ≤ n + m ) (共有 ) である。
0.78
In this way, our model can be extended to environments with different number of objects and agents. このように、我々のモデルは異なる数のオブジェクトやエージェントを持つ環境に拡張できる。 0.80
We represent the policy network for agent i as, 我々は エージェントiの 政策ネットワークを代表しています 0.77
πφi (ai|s) = hi(fi,i(si)+LayerNorm(gi(vi))) πφi(ai|s) = hi(fi,i(si)+LayerNorm(gi(vi)) 0.95
(5) where gi(·) is one fully connected layer to further process the attention embedding vi, which encodes the relationship between agent i and all the state entities (including all agents and objects). (5) ここで、gi(·) は、エージェント i とすべての状態エンティティ(すべてのエージェントとオブジェクトを含む)の関係をエンコードする注意埋め込み vi をさらに処理するための、完全な連結層である。 0.80
Adding attention embedding to fi,i(si) with a LayerNorm operator serves as a residual module to retain agent i’s own state information. LayerNorm演算子にfi,i(si)に注意を埋め込むと、エージェントiの状態情報を保持するための残余モジュールとして機能する。 0.80
The combined features are fed to a 2-layer MLP hi(·). 組み合わせた特徴は、2層MLPhi(·)に供給される。 0.78
The output of hi(·) is the action distribution. hi(·) の出力は作用分布である。 0.65
Note that the parameters of hi(·), gi(·) are not shared across the agents. hi(·), gi(·) のパラメータはエージェント間で共有されないことに注意。 0.67
Motivated by [55], we further define the attention embedding vi for agent i as, f T i,i(si)W T 55] に動機付け、エージェント i に対する注意埋め込み Vi を f T i, i(si)W T としてさらに定義する。 0.74
q Wkfi,j(sj) q Wkfi,j(sj) 0.85
, (6) vi = , (6) VI = 0.75
αi,jfi,j(sj), αi,j = αi,jfi,j(sj),αi,j = 0.90
, βi,j = N +M(cid:88) , βi,j = N +M(cid:88) 0.89
j=1 (cid:80) exp (βi,j) j=1 (cid:80) exp(βi,j) 0.74
exp (βi,j) (cid:112)dq exp(βi,j) (cid:112)dq 0.90
where Wq represents one fully connected layer to encode the query representation fi,i(si) and Wq represents another fully connected layer to encode the key representation fi,j(sj). wq はクエリ表現 fi,i(si) をエンコードする1つの完全連結層を表し、wq はキー表現 fi,j(sj) をエンコードするもう1つの完全連結層を表す。 0.75
dq is the dimension of the query representation. dq はクエリ表現の次元である。 0.63
βi,j represents the correlation between agent i and all the other entities. βi,j はエージェント i と他の全てのエンティティとの相関を表す。 0.82
4 4 0.85
英語(論文から抽出)日本語訳スコア
It is then normalized by a softmax function to αi,j as the probability value, which indicates where agent i is “attending” or focusing on in the current time step and αi ∈ RN +M . すると、確率値として αi,j へのソフトマックス関数によって正規化され、これはエージェント i が現在の時間ステップと αi ∈ RN + M のどの点に集中しているかを示す。 0.69
vi is computed via a weighted sum over all the state encoder representations. vi はすべての状態エンコーダ表現の重み付き和によって計算される。 0.74
Q-function. The Q-function has a similar structure as the policy network. Q機能。 Q-関数はポリシーネットワークと同様の構造を持つ。 0.82
For agent i, there are two modifications from the policy network to build the Qfunction: (i) The state encoder f Q i,i(si, ai) for the agent i not only takes in the state but also the action as inputs, the state encoders for other agents and objects maintain the same structure as f Q i,j(sj); (ii) The final layer of the Q-function network outputs a single value instead of an action distribution as Qθi (st, at i), which is used in Eq 1 and Eq 3. i) エージェント i のステートエンコーダ f q i,i(si, ai) は、状態だけでなく、入力としてのアクションも取り込むが、他のエージェントやオブジェクトのステートエンコーダは f q i,j(sj); (ii) q-関数ネットワークの最終層は、eq 1 と eq 3 で使用されるアクションディストリビューション qθi (st, at i) の代わりに単一の値を出力する。
訳抜け防止モード: エージェント i に対して、q関数を構築するためのポリシーネットワークから2つの変更がある: (i) 状態エンコーダ f q i。 i(si, ai ) 国家に責任を負うだけでなく しかし、入力としてのアクションや、他のエージェントやオブジェクトの状態エンコーダは、f q iと同じ構造を保持します。 j(sj ) ; (ii ) q-関数ネットワークの最終層は、アクション分布の代わりに単一の値を qθi (st, at i ) として出力する。 eq 1 と eq 3 で使用される。
0.85
4.2 Disentangled Attention as Intrinsic Regularization 4.2 内在正則化としての遠絡注意 0.49
Figure 2: Our model framework. 図2: 私たちのモデルフレームワーク。 0.80
We use attention mechanism to combine all embedded representations from agents and objects. 我々はエージェントとオブジェクトからのすべての埋め込み表現を組み合わせるために注意機構を使用する。 0.66
The output of attention module, together with another embedded 注目モジュールと他の埋め込みモジュールの出力 0.59
vector from si are summed together with (cid:76). si のベクターは (cid:76) とまとめられる。 0.72
The combined feature is fed into a 2-layer MLP hi to output ai. 組み合わせ 特徴は出力aiのために2層MLPhiに供給される。 0.61
The intrinsic loss is computed from the attention probability αi and encourages the agents to attend to different sub-tasks. 内在的損失は注意確率αiから計算され、エージェントが異なるサブタスクに参加するように促される。 0.64
We propose an intrinsic regularization called disentangled attention to improve the state encoder representations in our model for solving the problem of domination of a single agent and the conflict between the agents. 本稿では,単一エージェントの支配問題とエージェント間の競合を解決するため,本モデルにおける状態エンコーダ表現を改善するために,disentangled attentionと呼ばれる本質的正規化を提案する。 0.73
Each manipulation task can be decomposed to multiple sub-tasks, each with a different object. 各操作タスクは複数のサブタスクに分解でき、それぞれが異なるオブジェクトを持つ。 0.75
Our key insight is to encourage different robots to attend or focus on different objects, and consequently to work on different sub-tasks. 私たちの重要な洞察は、異なるロボットに異なるオブジェクトへの参加や集中を促し、それによって異なるサブタスクに取り組むことです。 0.72
Specifically, we look into the softmax probability αi,j ∈ [0, 1] from the attention mechanism in Eq 6. 具体的には、Eq 6 の注意機構からソフトマックス確率 αi,j ∈ [0, 1] を調べる。 0.74
This variable represents how much attention agent i is putting on object/agent j. この変数は、i がobject/agent j にどれだけ注目しているかを表す。 0.64
To encourage the agents to focus on different entities, we propose the following loss function for agent i as, エージェントが異なるエンティティに集中するように促すため、エージェント i に対して以下の損失関数を提案する。 0.79
N(cid:88) j = 1, j (cid:54)= i n(cid:88) j = 1, j (cid:54)= i 0.88
Lattn(φi) = Lattn(φi) = 0.99
< αi, αj >2, <αi, αj > 2。 0.85
(7) where < ·,· > denotes dot product of two vectors. (7) ここで < ·,· > は2つのベクトルの点積を表す。 0.82
This loss forces the dot product between two attention probability vector to be small, which encourages different agents to attend on different entities (including agents and objects). この損失は2つの注意確率ベクトルの間のドット積を小さくし、異なるエージェントが異なるエンティティ(エージェントやオブジェクトを含む)に参加することを奨励する。 0.80
We call this particular attention maps regulated by the orthogonal constraint as disentangled attention. 我々はこの注意マップを直交制約によって制御された不連続な注意マップと呼ぶ。 0.46
Recall that αi is predicted via the state encoder functions, parameterized by a part of φi. αi は状態エンコーダ関数を介して予測され、φi の一部でパラメータ化される。 0.82
Instead of proposing a new reward function, our disentangled attention regularization is directly applied on learning the state encoder representation itself. 新しい報酬関数を提案する代わりに、我々の無拘束注意正規化は状態エンコーダ表現自体の学習に直接適用される。 0.75
The training objective for the policy network can be represented as minimizing both Eq 1 and Eq 7 as, ポリシーネットワークのトレーニング目的は、Eq1とEq7の両方を最小化するものとして表現することができる。
訳抜け防止モード: 政策ネットワークのトレーニング目標を表わすことができる。 Eq 1 と Eq 7 の両方を最小化する
0.79
where λ = 0.05 is a constant to balance the reinforcement learning objective and our regularization. ここで λ = 0.05 は強化学習目標と規則化のバランスをとる定数である。 0.79
Since our Q-function is following a similar structure as the policy network, we can add the same disentangled attention regularization to help training the Q-function, which can be represented as, 当社のQ-関数はポリシネットワークと同様の構造を踏襲しているため,Q-関数のトレーニングを支援するために,同じ非絡み合いの注意正規化を加えることができる。 0.77
min φi Jπ(φi) + λLattn(φi), ミン φi Jπ(φi) + λLattn(φi) 0.78
(8) min θi (8) min θi 0.87
JQ(θi) + λLattn(θi). JQ(θi) + λLattn(θi)。 0.84
(9) 5 ...Attention ModuleLayerNorm𝑓𝑖,𝑖𝑓𝑖,1𝑓𝑖,2𝑓𝑖,3𝑓𝑖,2+𝑀𝑠𝑖𝑠1𝑠2𝑠3𝑠2+𝑀Agent 𝑖=1Other agentObjects𝑣𝑖2-layer MLP ℎ𝑖𝑎𝑖𝑓𝑖,𝑖(𝑠𝑖)𝑓𝑖,2(𝑠2)𝑓𝑖,1(𝑠1)𝑓𝑖,3(𝑠3)𝑓𝑖,𝑗(𝑠𝑗)......𝑣𝑖RL ObjectiveIntrinsic Regularization+𝛼𝑖⊕1-layer FC 𝑔𝑖 (9) 5 Attention ModuleLayerNorm' ;fi,ifi,2fi,2fi,2+Msis1s2s2+MAgent i=1Other AgentObjectsvi2-laye r MLP hiaifi,i(si)fi,2(s2) fi,1(s1)fi,3(s3)fi,j (sj)......viRL ObjectiveIntrinsic Regularization+αi.1-layer FC gi 0.74
英語(論文から抽出)日本語訳スコア
Implementation Details. The robot state si(1 ≤ i ≤ N ) contains the joint positions and velocities and the end-effector positions. 実装の詳細。 ロボット状態si(1 ≤ i ≤ N)は、関節位置と速度と端エフェクタ位置とを含む。 0.74
Thus each robot can reason the other robot’s joint state and avoid conflicts. それぞれのロボットは、他のロボットの関節状態を判断し、衝突を避けることができる。 0.71
Each object states si(N + 1 ≤ i ≤ N + M ) contains the object position, velocity, pose and its goal position, which are all in (x, y, z)-coordinates. 各対象状態 si(n + 1 ≤ i ≤ n + m ) は対象の位置、速度、ポーズ、目標位置を含み、それらはすべて (x, y, z)-座標である。 0.74
The action representation contains the positional control and the gripper motion information. 動作表現は、位置制御とグリップ動作情報とを含む。 0.64
5 Experiments Environment and setting. 5 実験 環境と設定。 0.77
We perform our experiments on bimanual manipulation tasks (N = 2) with two settings in the MuJoCo simulator [53]. MuJoCoシミュレーター[53]に2つの設定を組み、双方向操作タスク(N = 2)について実験を行った。 0.74
The first setting is on manipulation with two objects, where we evaluate the sample efficiency of training, conflict rate, domination rate, and completion steps across approaches to demonstrate that our intrinsic regularization can help discover efficient collaboration strategies. 最初の設定は2つのオブジェクトによる操作で、トレーニングのサンプル効率、競合率、支配率、完了ステップを評価し、本質的な正規化が効果的なコラボレーション戦略の発見に役立つことを実証する。 0.74
In the second setting, we will perform complex manipulation tasks with up to eight objects. 2番目の設定では、最大8つのオブジェクトで複雑な操作タスクを実行します。 0.67
We leverage curriculum learning to gradually increase the number of objects during training. カリキュラム学習を活用して、トレーニング中のオブジェクト数を徐々に増加させます。 0.63
We demonstrate that the intrinsic regularization not only avoids domination and conflict, but also brings adaptation capability with learned task decomposition knowledge. 本研究は,本質的正規化が支配と衝突を避けるだけでなく,学習したタスク分解知識による適応能力をもたらすことを実証する。 0.55
Note that two agents always receive the same reward. 2人のエージェントが常に同じ報酬を受け取ることに注意してください。 0.54
Baselines. We compare our approach with three baselines: (i) The same architecture as our model with the attention mechanism, but without the intrinsic regularization (Attention); (ii) SAC with Multi-layer Perceptron (MLP) neural network; (iii) Multi-Agent Deep Deterministic Policy Gradient [36] with MLP (MADDPG + MLP). ベースライン。 i)本モデルと同じアーキテクチャとアテンション機構,(ii)本質的正則化(Attention),(ii)多層パーセプトロン(MLP)ニューラルネットワークを用いたSAC,(iii)マルチエージェントディープ決定論的ポリシー勾配[36]とMLP(MADDPG + MLP)の3つの基本構造との比較を行った。 0.69
We also tried replacing DDPG with SAC in MADDPG, but we observe minor differences. また,MADDPGではDDPGをSACに置き換える試みを行ったが,若干の差はみられなかった。 0.61
Thus we only report results with MADDPG + MLP for simplicity. したがって,MADDPG + MLP を用いた簡易な結果のみを報告する。 0.72
Training details. During training, the buffer size is 1M and all models and learnable parameters are trained with Adam optimizer [29] with learning rate 0.0001, β1 = 0.9, β2 = 0.999. 訓練の詳細。 トレーニング中、バッファサイズは1mで、すべてのモデルと学習可能なパラメータはadam optimizer [29]でトレーニングされ、学習レート0.0001, β1 = 0.9, β2 = 0.999である。 0.72
We set the discount factor as γ = 0.98 and batch size as 512 for all tasks. 割引係数を γ = 0.98 とし,バッチサイズを全タスクで 512 とした。 0.77
We follow the replay k setting in HER [2], and set k = 4 with the future-replace strategy. 我々は HER [2] のリプレイ k 設定に従い、k = 4 を将来の戦略で設定する。 0.77
We update the network parameters after every two episodes. 2回毎にネットワークパラメータを更新します。 0.72
The episode length equals 50 times the object number for each environment. エピソードの長さは、各環境のオブジェクト番号の50倍である。 0.75
We run all the methods with 3 seeds and report both the mean and standard derivation for the success rate. すべてのメソッドを3つのシードで実行し、成功率の平均と標準導出の両方を報告します。 0.71
5.1 Evaluation on Tasks with Two Objects 5.1 対象が2つあるタスクの評価 0.69
We perform our experiments on two bimanual manipulation tasks with two objects using two Fetch robots in simulation. シミュレーションでは2つのFetchロボットを用いて2つの物体を用いた2つの双方向操作タスクの実験を行った。 0.62
The first task is Open Box and Place (Figure 1 (c)): The robots need to put the blue block object inside the box with a sliding cover, which requires one robot arm to open the sliding cover for the other robot arm to put the object inside. 最初のタスクはOpen Box and Place (図1(c)): ロボットは青いブロックオブジェクトをスライドカバーで箱の中に置く必要がある。
訳抜け防止モード: 最初のタスクはOpen BoxとPlace(図1(c))です。 ロボットは、青いブロックオブジェクトをスライドカバーで箱の中に入れなければならない。 片方のロボットアームが、もう片方のロボットアームのスライディングカバーを開けて、オブジェクトを中に入れる必要がある。
0.84
The second task is Push with Door (Figure 1 (d)): The robots need to push the blue object to the goal on the other side of a sliding green door that requires one robot arm to open it and clear the way for the pushing arm (with the grasping function disabled). 第2のタスクはドアで押すことです(図1(d)): ロボットは、スライドする緑のドアの反対側の目標に青いオブジェクトを押し付けなければなりません。
訳抜け防止モード: 2つ目のタスクはPush with Door(図1(d))です。 ロボットは、片方のロボットアームで開ける必要があるスライドグリーンドアの反対側のゴールに青い物体を押し込む必要がある。 そして、プッシュアーム(グリーピング機能が無効になった)への道のりをクリアする。
0.77
In both cases, we also apply a force on the sliding cover/door for it to bounce back to its original position if there is no outside forces. いずれの場合も、外部力がない場合、スライドカバー/ドアに力を加えて元の位置に戻します。 0.49
In the following experiments, we will show that our intrinsic regularization not only helps achieve better sample efficiency and performance, but more importantly, reduces the problems of domination and conflict, which further reduce the steps to finish the task at the same time. 以下の実験では、本質的な正則化がサンプリング効率と性能の向上に寄与するだけでなく、支配と対立の問題を低減し、同時にタスクを完了するためのステップをさらに短縮することを示す。
訳抜け防止モード: 以下の実験では、本質的な正則化は、より優れたサンプル効率と性能を達成するのに有効であることを示す。 より重要なのは 支配と紛争の問題を減らします 同時にタスクを完了させるステップをさらに削減します
0.76
Reward setting. We consider two different reward settings: (i) a sparse reward setting where the agents only obtain a reward 1.0 when the block is on the target position; (ii) a informative reward setting which gives a reward 1.0 when the box/door is open and another reward 1.0 when the block reaches to the goal. リワード設定。 i) エージェントがブロックが目標位置にある場合にのみ報酬 1.0 を得るようなスパース報酬設定 (ii) ボックス/ドアが開いたときに報酬 1.0 を与える情報報酬設定と、ブロックがゴールに達すると別の報酬 1.0 とである。 0.64
If the block reaches its goal in a trial, we count it as a successful trial. ブロックが試行錯誤で目標に達した場合、我々はそれを成功した試行とみなす。 0.68
Comparison on success rate. We plot the success rate of all the methods over the environment steps in Figure 3. 成功率の比較。 図3では、すべてのメソッドの成功率を環境ステップ上でプロットします。 0.76
We can observe that our approach with intrinsic regularization achieves better sample efficiency and better success rate than the baselines in most cases. 内在正則化によるアプローチは,ほとんどの場合において,基準値よりもサンプリング効率と成功率の向上を達成できる。 0.75
While our training curve is on par with the Attention baseline on the Push with Door environment in the sparse reward setting, we will show our method can solve the domination and conflict problems better. トレーニング曲線は、粗末な報酬設定におけるPush with Door環境の注意ベースラインと同等であるが、我々の方法が支配と紛争の問題をよりよく解決できることを示す。 0.73
We also observe that in both environments, our method and the Attention baseline achieve better success rate in the sparse reward setting and using informative reward. また,両環境において,提案手法と注意基準が,少額報酬設定と情報報酬を用いて,より良好な成功率を達成することを観察した。 0.60
The reason is that sparse reward offers more flexibility for the 理由は、スパース報酬がより柔軟性を提供するからだ。 0.64
6 6 0.85
英語(論文から抽出)日本語訳スコア
Figure 3: Performances of different methods on two bimanual manipulation tasks, Open Box and Place (2 on the left) and Push with Door (2 on the right). 図3: 2つの双方向操作タスクにおける異なるメソッドのパフォーマンス: オープンボックスとプレイス(左に2つ)とプッシュ(右に2つ)です。 0.77
We consider two reward settings for each task, (i) a sparse reward (right in each group), where agents only receive a success reward when all the goals are reached; (ii) an informative reward (left in each group), where agent will additionally receive a reward for reaching each individual goal in addition to the final success reward. 各タスクに対する報酬の設定として, (i) スパース報酬 (各グループ右) について検討し, エージェントはすべての目標が達成された時, 成功報酬のみを受け取る。 (ii) 情報報酬 (各グループ左) エージェントは, 最終成功報酬に加えて各ゴールに到達した報酬を, それぞれに付与する。 0.76
Figure 4: Ablation studies on the value of λ. 図4: λ の値に関するアブレーション研究。 0.79
Our method is generally robust to the choice of λ, when even is large (e g , λ=0.2). 我々の方法は通常、大きいとき(例えば λ=0.2)にλの選択に対して堅牢である。 0.87
In our practice, we choose λ=0.05 for all the experiments. 我々の実践では、全ての実験に対してλ=0.05を選択する。 0.63
Table 1: Conflict rate (%), domination rate (%) and average finishing steps of our method and the baseline with pure attention on different tasks. 表1: コンフリクト率(%)、支配率(%)、および本手法の平均仕上げ手順と、異なるタスクに純粋に注意を向けたベースライン。 0.76
Lower value is better. 価値が低い方がよい。 0.65
Box: Open Box and Place. box: オープンボックスとプレイス。 0.71
Door: Push with Door. Door: ドアでプッシュする。 0.87
agents to collaborate under the guidance with intrinsic disentangled attention, while the explicit informative reward can lead to local minimum more easily. 内在的無関心の指導の下で協力するエージェントに対して 明確な情報的報酬は より簡単に 局所的な最小限につながります
訳抜け防止モード: 内向的な注意をそらしながら 指導の下で協力するエージェント 明らかな情報的報酬は より簡単に 局所的な最小限につながります
0.71
Ablation on λ. λ 上のアブレーション。 0.67
We set the hyperparameter λ = 0.05 (defined in Equation 8, 9 for balancing the regularization) in all our experiments. すべての実験で超パラメータ λ = 0.05 (正規化のバランスをとるために方程式 8, 9 で定義される) を設定した。 0.72
To study the stability of our method, we perform ablation on different values of λ in Figure 4. 本手法の安定性を調べるため,図4のλの異なる値に対してアブレーションを行う。 0.85
We observe that our method is robust to the change of λ from 0.02 to 0.2. 本手法は λ の 0.02 から 0.2 への変化に頑健である。 0.81
Domination and Conflict. One important contribution of our intrinsic regularization is to reduce the problem of domination and conflict in the process of manipulation, which also improves the speed of finishing the task. 支配と紛争。 我々の本質的な正規化の重要な貢献は、操作プロセスにおける支配と対立の問題を減らし、タスクの完了速度を向上させることである。 0.68
We define three criteria which are all lower the better: (i) Domination Rate: We count how many steps an arm is interacting with an object in one episode as the manipulating steps (using contact force detection in MuJoCo). i) 支配率: 1エピソードで腕が物体と相互作用しているステップの数を、操作ステップとして数えます(mujocoでの接触力検出を使って)。 0.50
We compute the ratio of an agent’s manipulating steps over the two agents’ total manipulating steps. エージェントの操作ステップの比率を、2つのエージェントの操作ステップ全体に対して計算します。 0.75
We select the maximum ratio as the Domination Rate. 最大比率を支配率として選択する。 0.64
Ideally, we hope the Domination Rate to be close to 50% which indicates both robots are actively interacting with the objects. 理想的には、両方のロボットが積極的にオブジェクトと相互作用していることを示す、50%近くが支配率であることを期待している。
訳抜け防止モード: 理想的には 支配率は50%近くで、両方のロボットがオブジェクトと活発に相互作用していることを示している。
0.75
(ii) Conflict Rate: It counts the percentage of the “conflict step” over all steps. (ii)競合率:すべてのステップで“競合ステップ”の比率をカウントします。 0.66
We consider it a conflict step when the distance between two grippers is smaller than a small threshold. 2つのグリッパー間の距離が小さなしきい値よりも小さい場合の衝突ステップと考える。 0.72
This means two robots are interrupting each other’s action. つまり、2つのロボットがお互いの動きを中断しているということだ。 0.58
(iii) Finish Steps: How many steps do two agents take to finish the task successfully. (iii) 完了ステップ: タスクを成功させるために2つのエージェントがどれくらいのステップを踏むか。 0.75
The maximum episode length in both environments is 100. 両方の環境における最大エピソード長は100である。 0.69
We show the comparison on these three criteria in Table 1. これら3つの基準の比較を表1に示す。 0.81
We observe significant improvements over all the settings using our intrinsic regularization. 我々は本質的な正則化を用いて,すべての設定に対する大幅な改善を観察した。 0.49
For example, in the task of Open Box and Place with informative reward, our approach achieves almost half less conflict rate, 24% less domination rate, and 12 fewer steps comparing to the Attention baseline without the intrinsic regularization. 例えば Open Box と Place のタスクでは,インフォマティブな報酬を伴って,コンフリクト率をほぼ半分削減し,支配率を 24% 削減し,本質的な正規化を伴わないアテンションベースラインと比較する12ステップを削減した。 0.70
For Domination Rate Box (Informative) Box (Sparse) Door (Informative) Door (Sparse) のために domination rate box (informative) box (sparse) door (informative) door (sparse) 0.65
Attention 7.4±0.8 6.7±5.0 35.3±19.0 44.1±15.1 注意 7.4±0.8 6.7±5.0 35.3±19.0 44.1±15.1 0.23
Attention 33.6±5.5 39.2±9.8 23.0±4.4 30.3±8.0 注意 33.6±5.5 39.2±9.8 23.0±4.4 30.3±8.0 0.23
Finish Steps Box (Informative) Box (Sparse) Door (Informative) Door (Sparse) フィニッシュステップボックス(インフォーマル)ボックス(スパース)ドア(インフォーマル)ドア(スパース) 0.57
Conflict Rate Box (Informative) Box (Sparse) Door (Informative) Door (Sparse) conflict rate box (informative) box (sparse) door (informative) door (sparse) 0.80
Ours 53.4±0.5 62.6±6.4 76.5±5.5 66.9±7.0 我々の 53.4±0.5 62.6±6.4 76.5±5.5 66.9±7.0 0.40
Attention 77.2±2.9 74.5±2.8 83.7±4.8 68.8±6.7 77.2±2.9 74.5±2.8 83.7±4.8 68.8±6.7 0.24
Ours 4.0±2.1 3.6±2.3 23.3±16.6 18.7±11.7 我々の 4.0±2.1 3.6±2.3 23.3±16.6 18.7±11.7 0.40
Ours 21.3±3.2 40.0±11.4 22.8±5.7 23.3±6.6 我々の 21.3±3.2 40.0±11.4 22.8±5.7 23.3±6.6 0.40
7 Attention+Intrinsic Attention MLP MADDPG+MLP Attention+intrinsic λ=0.05 Attention+intrinsic λ=0.02 Attention+intrinsic λ=0.2 Attention 7 Attention+intrinsic Attention MLP MADDPG+MLP Attention+inrinsic λ=0.05 Attention+inrinsic λ=0.02 Attention+inrinsic λ=0.2 Attention 0.63
英語(論文から抽出)日本語訳スコア
Table 2: Conflict rate (%) of our method and the attention baseline on different tasks with Collision Penalty. 表2:我々の方法の衝突率(%)と、衝突罰の異なるタスクに対する注意ベースライン。 0.77
Lower value is better. 価値が低い方がよい。 0.65
Box: Open Box and Place. box: オープンボックスとプレイス。 0.71
Door: Push with Door. Door: ドアでプッシュする。 0.87
Push with Door using sparse reward, we reduce more than half the conflict rate. わずかな報酬でドアを押せば、衝突率の半分以上を削減できます。 0.59
This proves our assumption that using disentangled attention can lead to better collaboration. これは、行き詰まった注意を使うことがより良いコラボレーションにつながるという私たちの仮定を証明します。 0.48
We further study the conflict problem between the two robots. 我々はこの2つのロボットの衝突問題をさらに研究する。 0.70
We perform ablation by introducing an extra collision penalty during training: Two robots will receive −1.0 reward if their grippers collide to each other. 2つのロボットは、グリップが互いに衝突した場合、-1.0報酬を受け取ります。
訳抜け防止モード: 訓練中に余分な衝突ペナルティを導入することでアブレーションを行う。 2つのロボットは、グリッパーが互いに衝突した場合に-1.0の報酬を受け取る。
0.59
Note that such a reward is not realistic in practice since we do not hope the robots to collide to get the reward. このような報酬は実際には現実的ではない、なぜなら私たちはロボットが衝突して報奨を受けることを望んでいないからだ。
訳抜け防止モード: このような報酬は実際は現実的ではないことに注意。 ロボットが衝突して報酬を得ることを期待しません
0.69
We show the Conflict rate for both Attention baseline and our approach training with this collision penalty in Table 2. 表2で、留意ベースラインの衝突率と、この衝突ペナルティを用いたアプローチトレーニングの両立を図示する。 0.73
We observe consistent improvement by using our intrinsic regularization, and it remains to be an effective way to reduce conflicts even with the collision penalty. 我々は本質的正則化を用いて一貫した改善を観察し,衝突ペナルティにともなう競合を減らす効果的な方法であると考えられる。 0.73
Visualization on attention probability α. We visualize the two tasks in Figure 5. 注意確率αの可視化 図5で2つのタスクを視覚化します。 0.67
In each task, we visualize the attention α1 and α2 for each robot in two rows. 各タスクにおいて、各ロボットの注意α1,α2を2列に視覚化する。 0.76
Each attention vector αi contains four items that correspond to left arm (1st column), right arm (2nd column), and the two task-specific objects (last 2 columns). 各注目ベクトルαiは、左腕(第1列)、右腕(第2列)、および2つのタスク固有の対象(第2列)に対応する4つの項目を含む。 0.77
Figure 5 (a) shows the Push with Door task: The left arm is interacting with the object block, so it has a high value in the corresponding probability α1,3 (1st row and 3rd column); the right arm is interacting with the door, it also has a high value in the corresponding probability α2,4 (2nd row and 4th column). 図5(a)はドアタスクによるプッシュを示している: 左腕はオブジェクトブロックと相互作用しているので、対応する確率α1,3(第1行と第3列)で高い値を持ち、右腕はドアと相互作用しており、対応する確率α2,4(第2行と第4列)で高い値を持つ。 0.83
Similarly in Figure 5 (b) for the Open Box and Place task, a high probability with αi,j indicates the ith arm is interacting with object j. 同様に、Open Box および Place タスクの図 5 (b) では、αi,j の高い確率は、i の腕がオブジェクト j と相互作用していることを示す。 0.74
The two objects here are the block object (3rd column) and the box cover (4th column). ここでの2つのオブジェクトはブロックオブジェクト(3番目の列)とボックスカバー(4番目の列)です。 0.73
Conflict Rate Box (Informative) Box (Sparse) Door (Informative) Door (Sparse) conflict rate box (informative) box (sparse) door (informative) door (sparse) 0.80
Attention 10.4±5.6 3.5±2.1 5.3±1.19 12.2±3.0 10.4±5.63.5±2.1 5.3±1.19 12.2±3.0 0.24
Ours 3.9±1.8 2.3±0.9 3.4±1.9 4.7±1.1 我々の 3.9±1.8 2.3±0.9 3.4±1.9 4.7±1.1 0.40
5.2 Evaluation on Tasks with Multiple Objects We propose two tasks on bimanual manipulation with multiple objects. 5.2 複数オブジェクトを伴うタスクの評価 複数オブジェクトによる双方向操作に関する2つのタスクを提案する。 0.67
The first task is Stack Tower (Figure 1 (b)), where the robots need to stack objects as a tower with indicated goal positions. 最初のタスクはスタックタワー(図1(b))で、ロボットは目標位置を示す塔としてオブジェクトを積み上げる必要がある。 0.81
The second task is Rearrangement (Figure 1 (a)), where the robots need to rearrange the objects to their own goal locations on the table, not necessarily forming a tower. 第2のタスクは再配置(図1(a))で、ロボットは、必ずしもタワーを形成する必要はなく、テーブル上の自分の目標位置へオブジェクトを並べ替える必要がある。 0.82
When manipulating one object in these environments, it is easy for the arm to perturb other objects even it is not the intention. これらの環境で1つのオブジェクトを操作する場合、アームが他のオブジェクトを摂動させることは意図的ではないとしても容易である。 0.65
We train RL agents for both tasks in the informative reward setting: the agents will receive a reward 1.0 when each object reaches its goal. 各オブジェクトが目標に達したら、エージェントは報酬 1.0を受け取ります。
訳抜け防止モード: 情報報酬設定の両タスクの rlエージェントを訓練し :各オブジェクトが目標に達すると、エージェントは報酬 1.0 を受け取る。
0.71
We train our agents with curriculum learning: We start training the agents to manipulate one object and then gradually increase the objects to three to the end. 私たちはエージェントをカリキュラム学習で訓練します: エージェントに1つのオブジェクトを操作させ、徐々にオブジェクトを3つに増やします。 0.82
We evaluate our approach on two aspects: (i) How does the approach perform in each curriculum stage; (ii) How does the approach generalize to object numbers that exceed its training number (up to 8 objects in the Rearrangement task). 提案手法は, (i) カリキュラムの各段階でどのように機能するか, (ii) 学習数を超える対象数にどのように一般化するか (再配置タスクにおいて最大8つの対象を対象とする) という2つの側面で評価する。 0.76
By using our intrinsic regularization in the following experiments, we achieve better results in both aspects, especially in generalization to multiple objects. 次の実験で本質的な正則化を用いることで、両面、特に複数の対象への一般化においてより良い結果が得られる。 0.65
Results on each curriculum stage. 各カリキュラムステージの成績。 0.59
We evaluate on 3-block Rearrangement and Stack Tower tasks. 3ブロック配置とスタックタワーのタスクを評価する。 0.70
Note that both MLP and MADDPG+MLP baselines cannot handle a flexible number of objects, since they both require fix dimensions of inputs. MLP と MADDPG+MLP のベースラインは、どちらも入力の固定次元を必要とするため、フレキシブルな数のオブジェクトを扱えないことに注意。 0.77
Thus it is not applicable in these two tasks with curriculum learning. したがって、カリキュラム学習の2つのタスクには適用できない。 0.72
If we train both MLP and MADDPG+MLP directly with 3 objects, they all completely fail with zero success rate. MLPとMADDPG+MLPを3つのオブジェクトで直接訓練すると、成功率ゼロで完全に失敗する。 0.86
On the other hand, our method and the Attention baseline has the flexibility to handle a variant number of input objects. 一方,提案手法とアテンションベースラインには,様々な入力オブジェクトを扱う柔軟性がある。 0.56
Our method achieves significant improvements over the Attention baseline in all different stages of training. 本手法は, 様々な訓練段階において, 注意基準よりも大幅に改善する。 0.68
As the number of object increases, our gain over the Attention baseline becomes larger. オブジェクトの数が増えるにつれて、注目ベースラインに対する私たちの利得は大きくなる。 0.76
Results on generalization. We conduct generalization experiments on both tasks where we test the model trained with i objects on the same environment with i + k objects. 一般化の結果。 両方のタスクで一般化実験を行い、i + k オブジェクトで同じ環境で i オブジェクトでトレーニングされたモデルをテストします。 0.76
We show the results of Figure 5: Visualization of attention αi. 結果をお見せします 図5: 注意αiの可視化。 0.75
Each row corresponds to one robot arm attending to four items. 各行は4つのアイテムに対応する1つのロボットアームに対応する。 0.65
(a) Push with Door: one robot holds the door while the other pushes the block; (b) Open Box and Place: one robot opens the box while the other picks the block. (a)ドアで押す:一方のロボットがドアを握り、もう一方のロボットがブロックを押す;(b)箱を開けて置く;一方のロボットが箱を開け、もう一方のロボットがブロックを選ぶ。 0.80
8 (a)(b)𝛼1𝛼2𝛼1𝛼2 8 (a)(b)α1α2α1α2 0.74
英語(論文から抽出)日本語訳スコア
Table 3: Success rate (%) on Stack Tower of different methods for each curriculum learning and adaptation stage. 表3: カリキュラムの学習と適応段階ごとに異なる方法のスタックタワーにおける成功率(%)。 0.83
a → b means adapting the policy trained on a objects to b objects. a → b は、a オブジェクトで訓練されたポリシーを b オブジェクトに適応することを意味する。 0.66
2 towers means the agents need to stack two separate towers. 2つの塔は、エージェントが2つの塔を積み重ねる必要があることを意味する。 0.52
#object Ours Attention #object の注意 0.66
1 2 3 2→3 3→4 1 2 3 2→3 3→4 0.75
2→4 (2 towers) 100±0.0 98.7±0.9 2→4(2棟) 100±0.0 98.7±0.9 0.50
98.9±0.8 96.3±0.5 98.9±0.8 96.3±0.5 0.24
68.3±8.5 42.0±8.3 68.3±8.5 42.0±8.3 0.24
53.3±12.5 41.3±9.8 53.3±12.5 41.3±9.8 0.24
23.3±4.7 3.3±4.7 23.3±4.7 3.3±4.7 0.24
17.5±4.3 0.0±0.0 17.5±4.3 0.0±0.0 0.24
Table 4: Success rate (%) on Rearrange of different methods for each curriculum learning and adaptation stage. 表4: 各カリキュラムの学習・適応段階の異なる方法の再配置における成功率(%)。 0.86
a → b means adapting the policy trained on a objects to b objects. a → b は、a オブジェクトで訓練されたポリシーを b オブジェクトに適応することを意味する。 0.66
#object Ours Attention #object の注意 0.66
1 2 3 2→3 3→4 1 2 3 2→3 3→4 0.75
2→4 3→8 96.7±3.4 91.0±6.2 2→4 3→8 96.7±3.4 91.0±6.2 0.47
98.9±0.8 90.7±0.5 98.9±0.8 90.7±0.5 0.24
89.0±1.4 66.7±3.3 89.0±1.4 66.7±3.3 0.24
74.3±5.8 46.5±3.5 74.3±5.8 46.5±3.5 0.24
64.3±4.2 3.3±4.7 64.3±4.2 3.3±4.7 0.24
53.0±9.4 3.3±4.7 53.0±9.4 3.3±4.7 0.24
33.3±12.5 0.0±0.0 33.3±12.5 0.0±0.0 0.29
generalization success rate in Table 3 and Table 4 with the columns labeled by i → i+k. 表 3 と表 4 の一般化成功率を i → i+k でラベル付けした列で表す。 0.73
For the Stack Tower task, we can generalize the agent trained with 2-block stacking to stacking 2 towers each with 2 blocks (last column in Table 3), while the Attention baseline completely fails. Stack Towerタスクでは、2ブロックスタックでトレーニングされたエージェントを一般化して、2ブロック(テーブル3のラストカラム)で2つのタワーを積み重ねるが、アテンションベースラインは完全に失敗する。 0.75
For the Rearrangement task, we can rearrange 8 objects even we only train the model for rearranging 3 objects (last column in Table 4), while the Attention baseline fails to generalize to even 4 objects. 再配置タスクでは、3つのオブジェクト(テーブル4の最後の列)を並べ替えるモデルのみをトレーニングしても、8つのオブジェクトを並べ替えることはできませんが、注意基準は4つのオブジェクトに一般化できません。 0.68
This shows that our intrinsic regularization is not only beneficial for solving the domination and conflict problems, but also helps generalization to manipulation with more objects. このことは、本質的な正規化が支配問題や対立問題の解決に有用であるだけでなく、より多くのオブジェクトによる操作の一般化に役立つことを示している。 0.54
Visualization on stacking and rearrangement. 積み重ねと再配置の可視化 0.76
We visualize the three demonstrations for our approach: (i) stacking 3 blocks in Figure 7 (a); (ii) stacking 2 towers each with 2 blocks in Figure 7 (b) using policy trained with 2 blocks; (iii) rearranging 8 blocks to their target positions in Figure 7 (c) using the rearrangement policy trained with 3 blocks. i) 図7 (a) に3ブロックを積み重ねる (ii) 図7 (b) に2ブロックを積み重ねる (iii) 図7 (c) に8ブロックを配置する 図7 (c) に3ブロックを並べ替える 図7 (a) に2ブロックを積み重ねる 図7 (b) に2ブロックを積み重ねる。
訳抜け防止モード: i)図7(a)に3つのブロックを積み重ねること、(ii)図7(b)に2つのブロックを持つ2つのタワーを積み重ねることである。 2ブロックで訓練されたポリシーを使って iii) 図7(c)の8ブロックを目標位置に並べ替える 3ブロックで訓練された 再配置ポリシーを使って。
0.79
For stacking tasks, both robots are able to pick up different objects without interrupting the other robot and the stacked tower. 積み重ね作業では、両方のロボットは、他のロボットと積み重ねられた塔を中断することなく、異なる物体を拾い上げることができる。
訳抜け防止モード: タスクを積み重ねるために 両方のロボットは 他のロボットや積み重ねられた塔を中断することなく、異なる物体を拾う。
0.82
For the rearrangement task, we transfer the policy trained with 3 objects to rearrange 8 objects, far beyond the training object number. 再配置タスクでは、3つのオブジェクトでトレーニングされたポリシーを、8つのオブジェクトを再配置するために転送します。 0.72
Our two agents are still able to collaborate without conflicts to solve the tasks. 我々の2つのエージェントは、まだそのタスクを解決するための衝突なしに協力することができる。 0.56
Please refer to supplementary materials for more policy visualization in videos. ビデオのポリシービジュアライゼーションについて、補足資料を参照してください。 0.57
Figure 6: Visualization of bimanual manipulation. 図6: 双方向操作の可視化。 0.69
For each object, we represents its goal as a transparent dot in the same color. それぞれのオブジェクトに対して、その目標を同じ色の透明なドットとして表現します。 0.71
(a) Both arms are picking up objects and alternatively stacking them into a tower; (b) To stack two tower, each arm is working on one tower that is close to it; (c) We show the two arms can collaborate without conflict to pick up the 8 objects to their target locations. (a)両腕が物体を拾い上げ、塔に積み重ねる;(b)2基の塔を積み重ねる;(c)両腕が近接する1基の塔で作業する;(c)両腕が衝突することなく協力して8基の物体を目標の位置に拾い上げることができる。
訳抜け防止モード: (a)両腕が物を拾い上げ、代わりに塔に積み重ねる。 (b)2つの塔を積み上げる。 それぞれの腕は、その近くにある1つの塔で作業しています; (c) 2つの腕は 対立なく協力できる 8つの物体を ターゲットの場所に拾うために
0.77
6 Conclusion While previous works consider how to learn collaborative skills like synergistic behavior, we notice two main limitations in complex bimanual manipulation tasks: domination and conflict. 6 結論 先行研究が相乗的行動のような協調的スキルをいかに学ぶかを検討する間、我々は複雑な二元的操作タスクにおける2つの主な制限、支配と対立に気付く。 0.60
To solve these problems, we propose a simple and effective intrinsic regularization named disentangled attention. これらの問題を解決するために,不整合注意という,シンプルで効果的な固有正則化を提案する。 0.52
Our key insight of this regularization is to encourage the two agents to attend to different objects and different sub-tasks. この正規化に関する私たちの重要な洞察は、2つのエージェントが異なるオブジェクトと異なるサブタスクに参加するように促すことです。
訳抜け防止モード: この正規化の鍵となる洞察は 2つのエージェントが異なるオブジェクトと異なるサブタスクに出席するように促す。
0.68
We validate our approach on 4 challenging bimanual manipulation tasks with multiple objects (up to 8 objects). 我々は,複数のオブジェクト(最大8つのオブジェクト)で2次元操作を行う4つの課題に対するアプローチを検証する。 0.66
We demonstrate that our intrinsic regularization not only reduces the domination and conflict problems but also improves the generalization ability of the policies to manipulate much more objects than in the training environments. 我々の本質的正規化は支配と紛争の問題を減らすだけでなく、訓練環境よりも多くのオブジェクトを操作するポリシーの一般化能力を向上させることを実証する。 0.77
Finally, we hope our work contributes as a step towards safe robotics. 最後に、安全ロボティクスへのステップとして、私たちの研究が貢献できることを願っています。 0.47
9 (a) Stack Tower with 3 objects(b) Stack 2 Towers(c) Rearrangement with 8 objects 9 (a)3つのオブジェクトを持つスタックタワー(b)8つのオブジェクトを持つスタック2タワー(c)再構成 0.81
英語(論文から抽出)日本語訳スコア
References [1] Fabio Amadio, Adrià Colomé, and Carme Torras. 参考文献: Fabio Amadio、Adrià Colomé、Carme Torras。 0.54
Exploiting symmetries in reinforcement learning of bimanual robotic tasks. ロボットの強化学習における爆発的対称性 0.63
IEEE Robotics and Automation Letters, 4(2):1838–1845, 2019. IEEE Robotics and Automation Letters, 4(2):1838–1845, 2019 0.94
3 [2] Marcin Andrychowicz, Dwight Crow, Alex Ray, Jonas Schneider, Rachel Fong, Peter Welinder, Bob McGrew, Josh Tobin, Pieter Abbeel, and Wojciech Zaremba. 3 [2] Marcin Andrychowicz, Dwight Crow, Alex Ray, Jonas Schneider, Rachel Fong, Peter Welinder, Bob McGrew, Josh Tobin, Pieter Abbeel, Wojciech Zaremba 0.81
Hindsight experience replay. 後見経験のリプレイ。 0.70
In Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett, editors, Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA, pages 5048–5058, 2017. Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, Roman Garnett, editors, Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA, pages 5048–5058, 2017 0.90
6 [3] Andrew G Barto. 6 アンドリュー・G・バルト(Andrew G Barto) 0.72
Intrinsic motivation and reinforcement learning. 固有のモチベーションと強化学習。 0.69
In Intrinsically motivated learning in natural and artificial systems, pages 17–47. 本質的な動機付け 自然と人工のシステムで学ぶ、17-47ページ。 0.63
Springer, 2013. 2 [4] Marc G Bellemare, Sriram Srinivasan, Georg Ostrovski, Tom Schaul, David Saxton, and Remi Munos. 2013年春。 2 Marc G Bellemare氏、Sriram Srinivasan氏、Georg Ostrovski氏、Tom Schaul氏、David Saxton氏、Remi Munos氏。
訳抜け防止モード: 2013年春。 2 [4 ]Marc G Bellemare, Sriram Srinivasan, Georg Ostrovski, Tom Schaul氏、David Saxton氏、Remi Munos氏。
0.71
Unifying count-based exploration and intrinsic motivation. 数に基づく探索と本質的な動機の統合。 0.49
arXiv preprint arXiv:1606.01868, 2016. arXiv preprint arXiv:1606.01868, 2016 0.80
2 [5] Yuri Burda, Harrison Edwards, Deepak Pathak, Amos J. Storkey, Trevor Darrell, and Alexei A. Efros. 2 5]Yuri Burda, Harrison Edwards, Deepak Pathak, Amos J. Storkey, Trevor Darrell, Alexei A. Efros。 0.81
Large-scale study of curiosity-driven learning. 好奇心駆動学習の大規模研究 0.71
In 7th International Conference on Learning Representations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019. 第7回学習表現に関する国際会議, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019 0.86
OpenReview.net, 2019. OpenReview.net、2019年。 0.64
2 [6] Yuri Burda, Harrison Edwards, Amos Storkey, and Oleg Klimov. 2 [6]Yuri Burda、Harrison Edwards、Amos Storkey、Oleg Klimov。 0.76
Exploration by random network distillation. ランダムによる探索 ネットワーク蒸留 0.64
arXiv preprint arXiv:1810.12894, 2018. arXiv preprint arXiv:1810.12894, 2018 0.80
2 [7] Michael Chang, Abhishek Gupta, Sergey Levine, and Thomas L. Griffiths. 2 Michael Chang氏、Abhishek Gupta氏、Sergey Levine氏、Thomas L. Griffiths氏。 0.79
Automatically composing representation transformations as a means for generalization. 一般化の手段として表現変換を自動構成する。 0.68
In 7th International Conference on Learning Representations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019. 第7回学習表現に関する国際会議, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019 0.86
OpenReview.net, 2019. OpenReview.net、2019年。 0.64
1 [8] Rohan Chitnis, Shubham Tulsiani, Saurabh Gupta, and Abhinav Gupta. 1 Rohan Chitnis, Shubham Tulsiani, Saurabh Gupta, Abhinav Gupta. [8] Rohan Chitnis, Shubham Tulsiani, Saurabh Gupta. 0.79
Efficient bimanual manipulation using learned task schemas. 学習タスクスキーマを用いた効果的な双方向操作 0.50
In 2020 IEEE International Conference on Robotics and Automation (ICRA), pages 1149–1155. 2020年、IEEE International Conference on Robotics and Automation (ICRA) 1149–1155頁。 0.82
IEEE, 2020. IEEE、2020年。 0.90
3 [9] Rohan Chitnis, Shubham Tulsiani, Saurabh Gupta, and Abhinav Gupta. 3 9]Rohan Chitnis, Shubham Tulsiani, Saurabh Gupta, Abhinav Gupta。 0.75
Intrinsic motivation for encouraging synergistic behavior. 生来の動機づけ 相乗的行動を促す。 0.54
arXiv preprint arXiv:2002.05189, 2020. arXiv preprint arXiv:2002.05189, 2020 0.80
2 [10] Rohan Chitnis, Shubham Tulsiani, Saurabh Gupta, and Abhinav Gupta. 2 [10]Rohan Chitnis, Shubham Tulsiani, Saurabh Gupta, Abhinav Gupta。 0.78
Intrinsic motivation for encouraging synergistic behavior. 相乗的行動を促す本質的な動機づけ。 0.50
In 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. 第8回学習表現国際会議, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020 0.80
OpenReview.net, 2020. OpenReview.net、2020年。 0.65
3 [11] Coline Devin, Daniel Geng, Pieter Abbeel, Trevor Darrell, and Sergey Levine. 3 Coline Devin氏、Daniel Geng氏、Pieter Abbeel氏、Trevor Darrell氏、Sergey Levine氏。 0.76
Compositional plan vectors. In Hanna M. Wallach, Hugo Larochelle, Alina Beygelzimer, Florence d’AlchéBuc, Emily B. 構成計画ベクトル。 Hanna M. Wallach, Hugo Larochelle, Alina Beygelzimer, Florence d’AlchéBuc, Emily B 0.71
Fox, and Roman Garnett, editors, Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, pages 14963–14974, 2019. Fox, and Roman Garnett, editors, Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, page 14963–14974, 2019 0.90
1 [12] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. 1 Alexey Dosovitskiy氏、Lucas Beyer氏、Alexander Kolesnikov氏、Dirk Weissenborn氏、Xiaohua Zhai氏、Thomas Unterthiner氏、Mostafa Dehghani氏、Matthias Minderer氏、Georg Heigold氏、Sylvain Gelly氏、Jakob Uszkoreit氏、Neil Houlsby氏。 0.78
An image is worth 16x16 words: Transformers for image recognition at scale. 画像は16×16ワードで、画像認識のためのトランスフォーマーである。 0.67
CoRR, abs/2010.11929, 2020. CoRR, abs/2010.11929, 2020 0.78
3 [13] Benjamin Eysenbach, Abhishek Gupta, Julian Ibarz, and Sergey Levine. 3 [13]Benjamin Eysenbach、Abhishek Gupta、Julian Ibarz、Sergey Levine。 0.77
Diversity is all you need: Learning skills without a reward function. 多様性は必要なすべてです – 報酬機能のないスキルを学ぶこと。 0.65
In 7th International Conference on Learning Representations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019. 第7回学習表現に関する国際会議, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019 0.86
OpenReview.net, 2019. OpenReview.net、2019年。 0.64
2 [14] Jakob Foerster, Ioannis Alexandros Assael, Nando de Freitas, and Shimon Whiteson. 2[14] Jakob Foerster, Ioannis Alexandros Assael, Nando de Freitas, Shimon Whiteson。 0.73
Learning to communicate with deep multi-agent reinforcement learning. 深層多エージェント強化学習とコミュニケーションをとること。 0.74
In NIPS, pages 2137–2145, 2016. NIPS』2137-2145頁、2016年。 0.68
3 [15] Jakob N Foerster, Richard Y Chen, Maruan Al-Shedivat, Shimon Whiteson, Pieter Abbeel, and Igor Mordatch. 3 Jakob N Foerster氏、Richard Y Chen氏、Maruan Al-Shedivat氏、Shimon Whiteson氏、Pieter Abbeel氏、Igor Mordatch氏。 0.79
Learning with opponent-learning awareness. 対人学習による学習。 0.69
arXiv preprint arXiv:1709.04326, 2017. arXiv preprint arXiv:1709.04326, 2017 0.79
3 [16] Jakob N. Foerster, Gregory Farquhar, Triantafyllos Afouras, Nantas Nardelli, and Shimon Whiteson. 3 16]Jakob N. Foerster, Gregory Farquhar, Triantafyllos Afouras, Nantas Nardelli, Shimon Whiteson。 0.78
Counterfactual multi-agent policy gradients. カウンターファクトなマルチエージェントポリシーグラデーション。 0.65
In Sheila A. McIlraith and Kilian Q. Sheila A. McIlraith と Kilian Q 0.68
10 10 0.85
英語(論文から抽出)日本語訳スコア
Weinberger, editors, Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, pages 2974–2982. Weinberger, editors, Proceedings of the Thir-Second AAAI Conference on Artificial Intelligence, (AAAI-18), the 30th innovative Applications of Artificial Intelligence (IAAI-18), and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18), New Orleans, Louisiana, USA, February 2-7, 2018, page 2974–2982。 0.98
AAAI Press, 2018. AAAIプレス、2018年。 0.78
3 [17] Elena Gribovskaya and Aude Billard. 3 Elena Gribovskaya and Aude Billard.[17] Elena Gribovskaya and Aude Billard. 0.79
Combining dynamical systems control and programming by demonstration for teaching discrete bimanual coordination tasks to a humanoid robot. 人型ロボットに個別の双方向調整タスクを教えるためのデモによる動的システム制御とプログラミングの組み合わせ。 0.78
In 2008 3rd ACM/IEEE International Conference on Human-Robot Interaction (HRI), pages 33–40. 2008年の第3回 ACM/IEEE International Conference on Human-Robot Interaction (HRI)、33-40頁。 0.64
IEEE, 2008. 2008年、IEEE。 0.66
3 [18] Huy Ha, Jingxi Xu, and Shuran Song. 3 [18]Huy Ha、Jingxi Xu、Shuran Song。 0.72
Learning a decentralized multi-arm motion planner. 分散マルチアームモーションプランナーの学習 0.35
arXiv preprint arXiv:2011.02608, 2020. arXiv preprint arXiv:2011.02608, 2020 0.81
3 [19] Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, and Sergey Levine. 3 Tuomas Haarnoja氏、Aurick Zhou氏、Pieter Abbeel氏、Sergey Levine氏。 0.70
Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor. soft actor-critic: off-policy maximum entropy deep reinforcement learning with a stochastic actor (英語) 0.69
In Jennifer G. Dy and Andreas Krause, editors, Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Stockholmsmässan, Stockholm, Sweden, July 10-15, 2018, volume 80 of Proceedings of Machine Learning Research, pages 1856–1865. Jennifer G. Dy and Andreas Krause, editors, Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Stockholmsmässan, Stockholmsmässan, Stockholm, Sweden, July 10-15, Volume 80 of Proceedings of Machine Learning Research, page 1856–1865. ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ 0.80
PMLR, 2018. 2018年、PMLR。 0.68
3 [20] He He, Jordan Boyd-Graber, Kevin Kwok, and Hal Daumé III. 3 He He, Jordan Boyd-Graber, Kevin Kwok, Hal Daumé III 0.72
Opponent modeling in deep reinforcement learning. 深部強化学習における対向モデル 0.74
In International Conference on Machine Learning, pages 1804–1813, 2016. International Conference on Machine Learning, page 1804–1813, 2016 0.80
3 [21] Ping Hsu. 3 [21]Ping Hsu。 0.80
Coordinated control of multiple manipulator systems. 複数のマニピュレータシステムの協調制御 0.72
IEEE Transactions on Robotics IEEE Transactions on Robotics 0.85
and Automation, 9(4):400–410, 1993. そして、1993年9(4):400-410。 0.66
3 [22] Sandy H Huang, Martina Zambelli, Jackie Kay, Murilo F Martins, Yuval Tassa, Patrick M Pilarski, and Raia Hadsell. 3 Sandy H Huang, Martina Zambelli, Jackie Kay, Murilo F Martins, Yuval Tassa, Patrick M Pilarski, Raia Hadsell。 0.75
Learning gentle object manipulation with curiosity-driven deep reinforcement learning. 好奇心駆動型深層強化学習による優雅な物体操作の学習 0.62
arXiv preprint arXiv:1903.08542, 2019. arXiv preprint arXiv:1903.08542, 2019 0.81
2 [23] Edward Hughes, Joel Z Leibo, Matthew G Phillips, Karl Tuyls, Edgar A Duéñez-Guzmán, Antonio García Castañeda, Iain Dunning, Tina Zhu, Kevin R McKee, Raphael Koster, et al Inequity aversion improves cooperation in intertemporal social dilemmas. 2 1623]Edward Hughes, Joel Z Leibo, Matthew G Phillips, Karl Tuyls, Edgar A Duéñez-Guzmán, Antonio García Castañeda, Iain Dunning, Tina Zhu, Kevin R McKee, Raphael Koster, et al Inequity aversionは、時間的社会的ジレンマにおける協力を改善する。 0.89
arXiv preprint arXiv:1803.08884, 2018. arXiv preprint arXiv:1803.08884, 2018 0.79
3 [24] Shariq Iqbal and Fei Sha. 3 [24]Shariq IqbalとFei Sha。 0.76
Actor-attention-crit ic for multi-agent reinforcement learning. マルチエージェント強化学習のためのアクタ-attention-critic 0.51
In ICML, pages 2961–2970, 2019. 院 ICML、2961-2970頁、2019年。 0.55
3 [25] Shariq Iqbal and Fei Sha. 3 [25]Shariq IqbalとFei Sha。 0.76
Coordinated exploration via intrinsic rewards for multi-agent rein- 固有報酬によるマルチエージェントトレインの協調探索- 0.64
forcement learning. arXiv preprint arXiv:1905.12127, 2019. 強制学習。 arXiv preprint arXiv:1905.12127, 2019 0.69
3 [26] Natasha Jaques, Angeliki Lazaridou, Edward Hughes, Caglar Gulcehre, Pedro Ortega, DJ Strouse, Joel Z Leibo, and Nando De Freitas. 3 Natasha Jaques, Angeliki Lazaridou, Edward Hughes, Caglar Gulcehre, Pedro Ortega, DJ Strouse, Joel Z Leibo, Nando De Freitas。
訳抜け防止モード: 3 [26 ]ナターシャ・ジャケス、アンジェリキ・ラザリドゥ、エドワード・ヒューズ Caglar Gulcehre, Pedro Ortega, DJ Strouse, Joel Z Leibo ナンド・デ・フレイタス(Nando De Freitas)とも。
0.81
Social influence as intrinsic motivation for multi-agent deep reinforcement learning. 多エージェント深層強化学習の本質的動機としての社会的影響 0.65
In International Conference on Machine Learning, pages 3040–3049. 機械学習に関する国際会議、3040-3049頁。 0.76
PMLR, 2019. 2019年、PMLR。 0.72
3 [27] Jiechuan Jiang and Zongqing Lu. 3 [27]江南省と宗清省。 0.69
Learning attentional communication for multi-agent coopera- マルチエージェント協調のための注意コミュニケーションの学習- 0.61
tion. In NeurIPS, 2018. ティメント 2018年、NeurIPS。 0.43
3 [28] Yiding Jiang, Shixiang Gu, Kevin Murphy, and Chelsea Finn. 3 [28]Yiding Jiang, Shixiang Gu, Kevin Murphy, Chelsea Finn。 0.79
Language as an abstraction for hierarchical deep reinforcement learning. 階層的な深い強化学習のための抽象言語。 0.82
In Hanna M. Wallach, Hugo Larochelle, Alina Beygelzimer, Florence d’Alché-Buc, Emily B. Hanna M. Wallach, Hugo Larochelle, Alina Beygelzimer, Florence d’Alché-Buc, Emily B 0.85
Fox, and Roman Garnett, editors, Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, pages 9414–9426, 2019. Fox, and Roman Garnett, editors, Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, page 9414–9426, 2019 0.90
1 [29] Diederik P. Kingma and Jimmy Ba. 1 29] dieerik p. kingmaとjimmy ba。 0.75
Adam: A method for stochastic optimization. Adam: 確率最適化の方法です。 0.69
In Yoshua Bengio and Yann LeCun, editors, 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings, 2015. yoshua bengio and yann lecun, editors, 3rd international conference on learning representations, iclr 2015, san diego, ca, usa, may 7-9, 2015 conference track proceedings, 2015 (英語) 0.78
6 [30] Oliver Kroemer, Christian Daniel, Gerhard Neumann, Herke Van Hoof, and Jan Peters. 6 Oliver Kroemer氏、Christian Daniel氏、Gerhard Neumann氏、Herke Van Hoof氏、Jan Peters氏。 0.77
Towards learning hierarchical skills for multi-phase manipulation tasks. 多相操作タスクにおける階層的スキルの学習に向けて 0.56
In 2015 IEEE International Conference on Robotics and Automation (ICRA), pages 1503–1510. 2015年、IEEE International Conference on Robotics and Automation (ICRA)、1503-1510頁。 0.82
IEEE, 2015. 2015年、IEEE。 0.69
3 [31] Richard Li, Allan Jabri, Trevor Darrell, and Pulkit Agrawal. 3 31]リチャード・リー、アラン・ジャブリ、トレヴァー・ダレル、パルキット・アグラル。 0.67
Towards practical multi-object manipulation using relational reinforcement learning. リレーショナル強化学習を用いた実用的マルチオブジェクト操作に向けて 0.62
In 2020 IEEE International Conference on Robotics and Automation, ICRA 2020, Paris, France, May 31 - August 31, 2020, pages 4051–4058. 2020年、ieee international conference on robotics and automation, icra 2020, paris, france, may 31– august 31 2020, pages 4051–4058。 0.81
IEEE, 2020. IEEE、2020年。 0.90
1, 3 11 1, 3 11 0.85
英語(論文から抽出)日本語訳スコア
[32] Yunfei Li, Huazhe Xu, Yilin Wu, Xiaolong Wang, and Yi Wu. [32]ユンフェイ・リー(Yunfei Li)、フアゼ・チウ(Huazhe Xu)、イリン・ウー(Yilin Wu)、チアオロン・ワン(Xiaolong Wang)、イ・ウー(Yi Wu)。 0.42
Solving compositional reinforcement learning problems via task reduction. 作業削減による構成強化学習問題の解法 0.73
In International Conference on Learning Representations, 2021. 2021年、国際学習表現会議に参加。 0.78
1 [33] Timothy P. Lillicrap, Jonathan J. 1 [33]Timothy P. Lillicrap, Jonathan J. 0.86
Hunt, Alexander Pritzel, Nicolas Heess, Tom Erez, Yuval Tassa, David Silver, and Daan Wierstra. Hunt、Alexander Pritzel、Nicolas Heess、Tom Erez、Yuval Tassa、David Silver、Daan Wierstra。 0.70
Continuous control with deep reinforcement learning. 深層強化学習による連続制御 0.74
In Yoshua Bengio and Yann LeCun, editors, 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings, 2016. Yoshua Bengio and Yann LeCun, editors, 4th International Conference on Learning Representations, ICLR 2016 San Juan, Puerto Rico, May 2-4, 2016 Conference Track Proceedings, 2016 0.77
3 [34] Michael L Littman. 3 マイケル・リットマン(Michael L Littman)。 0.74
Markov games as a framework for multi-agent reinforcement learning. マルチエージェント強化学習のフレームワークとしてのマルコフゲーム 0.73
In ICML, volume 157, pages 157–163, 1994. 院 ICML, volume 157, page 157–163, 1994。 0.68
3 [35] Qian Long, Zihan Zhou, Abhinav Gupta, Fei Fang, Yi Wu, and Xiaolong Wang. 3 [35]Qian Long、Zihan Zhou、Abhinav Gupta、Fei Fang、Yi Wu、Xiaolong Wang。 0.74
Evolutionary population curriculum for scaling multi-agent reinforcement learning. マルチエージェント強化学習のための進化的集団カリキュラム 0.71
In 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. 第8回学習表現国際会議, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020 0.80
OpenReview.net, 2020. OpenReview.net、2020年。 0.65
3 [36] Ryan Lowe, YI WU, Aviv Tamar, Jean Harb, OpenAI Pieter Abbeel, and Igor Mordatch. 3 [36] Ryan Lowe氏、YI WU氏、Aviv Tamar氏、Jean Harb氏、OpenAI Pieter Abbeel氏、Igor Mordatch氏。 0.82
Multiagent actor-critic for mixed cooperative-competit ive environments. 複合協調競争環境におけるマルチエージェントアクター批判 0.60
In I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, editors, Advances in Neural Information Processing Systems, volume 30, pages 6379–6390. I. Guyon, U.V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, R. Garnett, editors, Advances in Neural Information Processing Systems, Volume 30 pages 6379–6390. ^ ^ ^ ^ ^ ^ ^ ^ 0.79
Curran Associates, Inc., 2017. Curran Associates, Inc., 2017。 0.79
3, 6 [37] Kendall Lowrey, Aravind Rajeswaran, Sham Kakade, Emanuel Todorov, and Igor Mordatch. 3, 6 [37]Kendall Lowrey、Aravind Rajeswaran、Sham Kakade、Emanuel Todorov、Igor Mordatch。 0.73
Plan online, learn offline: Efficient learning and exploration via model-based control. オンライン計画、オフライン学習:モデルベースの制御による効率的な学習と探索。 0.70
arXiv preprint arXiv:1811.01848, 2018. arXiv preprint arXiv:1811.01848, 2018 0.80
2 [38] Aleksandra Malysheva, Tegg Taekyong Sung, Chae-Bong Sohn, Daniel Kudenko, and Aleksei Shpilman. 2 [38]Aleksandra Malysheva,Tegg Taekyong Sung,Chae-Bong Sohn,Daniel Kudenko,Aleksei Shpilman。 0.78
Deep multi-agent reinforcement learning with relevance graphs. 関連グラフを用いた深層マルチエージェント強化学習 0.80
arXiv preprint arXiv:1811.12557, 2018. arXiv preprint arXiv:1811.12557, 2018 0.79
3 [39] Ian Osband, John Aslanides, and Albin Cassirer. 3 39] イアン・オズバンド、ジョン・アスラニデス、アルビン・キャシラー 0.67
Randomized prior functions for deep rein- 深部ストレッチに対するランダム化事前関数 0.73
forcement learning. arXiv preprint arXiv:1806.03335, 2018. 強制学習。 arXiv preprint arXiv:1806.03335, 2018 0.68
2 [40] Georg Ostrovski, Marc G Bellemare, Aäron Oord, and Rémi Munos. 2 Georg Ostrovski氏、Marc G Bellemare氏、Aäron Oord氏、Rémi Munos氏。 0.74
Count-based exploration with neural density models. ニューラル密度モデルによるカウントベース探索 0.75
In International conference on machine learning, pages 2721–2730. 機械学習に関する国際会議』2721-2730頁。 0.74
PMLR, 2017. 2017年、PMLR。 0.66
2 [41] Pierre-Yves Oudeyer, Frdric Kaplan, and Verena V Hafner. 2 He41] Pierre-Yves Oudeyer, Frdric Kaplan, Verena V Hafner 0.78
Intrinsic motivation systems for autonomous mental development. 自律的精神発達のための本質的動機づけシステム。 0.58
IEEE transactions on evolutionary computation, 11(2):265– 286, 2007. IEEEによる進化計算のトランザクション 11(2):265–286, 2007 0.83
2 [42] Deepak Pathak, Pulkit Agrawal, Alexei A. Efros, and Trevor Darrell. 2 [42]Deepak Pathak、Pulkit Agrawal、Alexei A. Efros、Trevor Darrell。 0.77
Curiosity-driven exploration by self-supervised prediction. 自己教師付き予測による好奇心駆動探査 0.46
In Doina Precup and Yee Whye Teh, editors, Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017, volume 70 of Proceedings of Machine Learning Research, pages 2778–2787. Doina Precup and Yee Whye Teh, editors, Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017, volume 70 of Proceedings of Machine Learning Research, page 2778–2787. ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^ ^
訳抜け防止モード: Doina Precup and Yee Whye Teh, editors, Proceedings of the 34th International Conference on Machine Learning ICML 2017、シドニー、NSW、オーストラリア、2017年8月6日 - 8月11日。 Proceedings of Machine Learning Research』第70巻2778-2787頁。
0.86
PMLR, 2017. 2017年、PMLR。 0.66
2 [43] Peng Peng, Quan Yuan, Ying Wen, Yaodong Yang, Zhenkun Tang, Haitao Long, and Jun Wang. 2 [43]Peng Peng、Quan Yuan、Ying Wen、Yyodong Yang、Zhenkun Tang、Haitao Long、Jun Wang。 0.76
Multiagent bidirectionally-coor dinated nets for learning to play starcraft combat games. マルチエージェント双方向コーディネートネットは、スタークラフト戦闘ゲームを学べる。 0.66
arXiv preprint arXiv:1703.10069, 2, 2017. arXiv preprint arXiv:1703.10069, 2, 2017 0.85
3 [44] Xue Bin Peng, Michael Chang, Grace Zhang, Pieter Abbeel, and Sergey Levine. 3 44]Xue Bin Peng、Michael Chang、Grace Zhang、Pieter Abbeel、Sergey Levine。 0.73
MCP: learning composable hierarchical control with multiplicative compositional policies. MCP: 多重構成ポリシーによる構成可能な階層制御の学習。 0.72
In Hanna M. Wallach, Hugo Larochelle, Alina Beygelzimer, Florence d’Alché-Buc, Emily B. Hanna M. Wallach, Hugo Larochelle, Alina Beygelzimer, Florence d’Alché-Buc, Emily B 0.85
Fox, and Roman Garnett, editors, Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, pages 3681–3692, 2019. Fox, and Roman Garnett, editors, Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada, pages 3681–3692, 2019 0.90
1 [45] Marc H Raibert and John J Craig. 1 Marc H Raibert 氏と John J Craig 氏。 0.75
Hybrid position/force control of manipulators. マニピュレータのハイブリッド位置/力制御 0.80
1981. 3 [46] Tabish Rashid, Mikayel Samvelyan, Christian Schröder de Witt, Gregory Farquhar, Jakob N. Foerster, and Shimon Whiteson. 1981. 3[46] Tabish Rashid, Mikayel Samvelyan, Christian Schröder de Witt, Gregory Farquhar, Jakob N. Foerster, Shimon Whiteson。 0.82
QMIX: monotonic value function factorisation for deep multiagent reinforcement learning. QMIX:深層マルチエージェント強化学習のための単調値関数分解 0.79
In Jennifer G. Dy and Andreas Krause, editors, Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Stockholmsmässan, Stockholm, Sweden, July 10-15, 2018, volume 80 of Proceedings of Machine Learning Research, pages 4292–4301. jennifer g. dy and andreas krause, editors, proceedings of the 35th international conference on machine learning, icml 2018, stockholmsmässan, stockholm, sweden, july 10-15, 2018, volume 80 of proceedings of machine learning research, pages 4292–4301。 0.79
PMLR, 2018. 2018年、PMLR。 0.68
3 12 3 12 0.85
英語(論文から抽出)日本語訳スコア
[47] Jürgen Schmidhuber. ユルゲン・シュミット (Jürgen Schmidhuber)。 0.58
A possibility for implementing curiosity and boredom in model-building neural controllers. モデル構築ニューラルコントローラにおける好奇心と退屈の実装の可能性 0.65
In Proc. of the international conference on simulation of adaptive behavior: From animals to animats, pages 222–227, 1991. Proc。 適応行動のシミュレーションに関する国際会議 (international conference on simulation of adaptive behavior: from animals to animats) の222-227頁。 0.64
2 [48] Archit Sharma, Shixiang Gu, Sergey Levine, Vikash Kumar, and Karol Hausman. 2 [48]Archit Sharma, Shixiang Gu, Sergey Levine, Vikash Kumar, Karol Hausman。 0.79
Dynamicsaware unsupervised discovery of skills. スキルの発見を監督しないダイナミクス。 0.57
In 8th International Conference on Learning Representations, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020. 第8回学習表現国際会議, ICLR 2020, Addis Ababa, Ethiopia, April 26-30, 2020 0.80
OpenReview.net, 2020. OpenReview.net、2020年。 0.65
2 [49] Christian Smith, Yiannis Karayiannidis, Lazaros Nalpantidis, Xavi Gratal, Peng Qi, Dimos V Dimarogonas, and Danica Kragic. 2 49]Christian Smith, Yiannis Karayiannidis, Lazaros Nalpantidis, Xavi Gratal, Peng Qi, Dimos V Dimarogonas, Danica Kragic。 0.79
Dual arm manipulation—a survey. デュアルアーム操作 - サーベイ。 0.59
Robotics and Autonomous systems, 60(10):1340–1353, 2012. ロボットと自律システム, 60(10):1340–1353, 2012 0.84
3 [50] Kyunghwan Son, Daewoo Kim, Wan Ju Kang, David Hostallero, and Yung Yi. 3 [50]慶和孫、大夫金、Wan Ju Kang、David Hostallero、Yung Yi。 0.74
QTRAN: learning to factorize with transformation for cooperative multi-agent reinforcement learning. QTRAN: 協調型マルチエージェント強化学習のための変換による分解学習。 0.78
In Kamalika Chaudhuri and Ruslan Salakhutdinov, editors, Proceedings of the 36th International Conference on Machine Learning, ICML 2019, 9-15 June 2019, Long Beach, California, USA, volume 97 of Proceedings of Machine Learning Research, pages 5887–5896. Kamalika Chaudhuri と Ruslan Salakhutdinov, editors, Proceedings of the 36th International Conference on Machine Learning, ICML 2019, 9-15 June 2019, Long Beach, Volume 97 of Proceedings of Machine Learning Research, page 5887–5896. では、機械学習に関する第36回国際会議が開催されている。 0.78
PMLR, 2019. 2019年、PMLR。 0.72
3 [51] DJ Strouse, Max Kleiman-Weiner, Josh Tenenbaum, Matt Botvinick, and David Schwab. 3[51]DJ Strouse、Max Kleiman-Weiner、Josh Tenenbaum、Matt Botvinick、David Schwab。 0.81
arXiv preprint arXiv プレプリント 0.83
Learning to share and hide intentions using information regularization. 情報正規化を用いた意図の共有と隠蔽の学習。 0.69
arXiv:1808.02093, 2018. arxiv:1808.02093、2018年。 0.30
3 [52] Peter Sunehag, Guy Lever, Audrunas Gruslys, Wojciech Marian Czarnecki, Vinícius Flores Zambaldi, Max Jaderberg, Marc Lanctot, Nicolas Sonnerat, Joel Z. Leibo, Karl Tuyls, and Thore Graepel. 3 Peter Sunehag, Guy Lever, Audrunas Gruslys, Wojciech Marian Czarnecki, Vinícius Flores Zambaldi, Max Jaderberg, Marc Lanctot, Nicolas Sonnerat, Joel Z. Leibo, Karl Tuyls, Thore Graepel
訳抜け防止モード: 3 52 ] Peter Sunehag, Guy Lever, Audrunas Gruslys, Wojciech Marian Czarnecki, Vinícius Flores Zambaldi, Max Jaderberg, Marc Lanctot Nicolas Sonnerat, Joel Z. Leibo, Karl Tuyls, Thore Graepel など。
0.82
Value-decomposition networks for cooperative multi-agent learning based on team reward. チーム報酬に基づく協調型マルチエージェント学習のための価値分割ネットワーク 0.74
In Elisabeth André, Sven Koenig, Mehdi Dastani, and Gita Sukthankar, editors, Proceedings of the 17th International Conference on Autonomous Agents and MultiAgent Systems, AAMAS 2018, Stockholm, Sweden, July 10-15, 2018, pages 2085–2087. Elisabeth André, Sven Koenig, Mehdi Dastani, Gita Sukthankar, editors, the 17th International Conference on Autonomous Agents and MultiAgent Systems, AAMAS 2018, Stockholm, Sweden, July 10-15, 2018, page 2085–2087 0.80
International Foundation for Autonomous Agents and Multiagent Systems Richland, SC, USA / ACM, 2018. international foundation for autonomous agents and multiagent systems richland, sc, usa / acm, 2018 (英語) 0.81
3 [53] Emanuel Todorov, Tom Erez, and Yuval Tassa. 3 Emanuel Todorov氏、Tom Erez氏、Yuval Tassa氏。 0.73
Mujoco: A physics engine for model-based control. Mujoco: モデルベースの制御のための物理エンジン。 0.79
In 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems, pages 5026–5033. 2012年、IEEE/RSJ International Conference on Intelligent Robots and Systems, page 5026–5033。 0.79
IEEE, 2012. 2012年、IEEE。 0.66
6 [54] Albert Tung, Josiah Wong, Ajay Mandlekar, Roberto Martín-Martín, Yuke Zhu, Li Fei-Fei, and Silvio Savarese. 6 54]Albert Tung, Josiah Wong, Ajay Mandlekar, Roberto Martín-Martín, Yuke Zhu, Li Fei-Fei, Silvio Savarese。 0.85
Learning multi-arm manipulation through collaborative teleoperation. 協調遠隔操作によるマルチアーム操作の学習 0.69
arXiv preprint arXiv:2012.06738, 2020. arXiv preprint arXiv:2012.06738, 2020 0.81
3 [55] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. 3 [55]Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin。 0.82
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, and Roman Garnett, editors, Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA, pages 5998–6008, 2017. Isabelle Guyon, Ulrike von Luxburg, Samy Bengio, Hanna M. Wallach, Rob Fergus, S. V. N. Vishwanathan, Roman Garnett, editors, Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, December 4-9, 2017, Long Beach, CA, USA, pages 5998–6008, 2017 0.90
2, 3, 4 [56] Tonghan Wang, Heng Dong, Victor R. Lesser, and Chongjie Zhang. 2, 3, 4 [56]Tonghan Wang、Heng Dong、Victor R. Lesser、Congjie Zhang。 0.77
ROMA: multi-agent reinforcement learning with emergent roles. ROMA: 創発的な役割を持つマルチエージェント強化学習。 0.72
In Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event, volume 119 of Proceedings of Machine Learning Research, pages 9876–9886. 第37回In Proceedings of the 37th International Conference on Machine Learning, ICML 2020, 13-18 July 2020, Virtual Event, Volume 119 of Proceedings of Machine Learning Research, page 9876–9886。 0.89
PMLR, 2020. PMLR、2020年。 0.88
3 [57] Tonghan Wang, Jianhao Wang, Yi Wu, and Chongjie Zhang. 3 [57]東山王、元王、李武、長江張。 0.64
Influence-based multi-agent 影響に基づくマルチエージェント 0.52
exploration. arXiv preprint arXiv:1910.05512, 2019. 探検だ arXiv preprint arXiv:1910.05512, 2019 0.65
3 [58] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. 3 [58]Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He。 0.80
Non-local neural networks. 非局所ニューラルネットワーク。 0.76
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7794–7803, 2018. Proceedings of the IEEE conference on computer vision and pattern recognition, page 7794–7803, 2018。 0.83
3 [59] Ning Xi, Tzyh-Jong Tarn, and Antal K Bejczy. 3 [59]Ning Xi、Tzyh-Jong Tarn、Antal K Bejczy。 0.79
Intelligent planning and control for multirobot IEEE transactions on robotics and automation, ロボットと自動化におけるマルチロボットIEEEトランザクションの知的計画と制御 0.84
coordination: An event-based approach. コーディネーション: イベントベースのアプローチ。 0.66
12(3):439–452, 1996. 12(3):439–452, 1996. 0.88
3 [60] Fan Xie, Alexander Chowdhury, M Kaluza, Linfeng Zhao, Lawson LS Wong, and Rose Yu. 3 [60]Fan Xie、Alexander Chowdhury、M Kaluza、Linfeng Zhao、Lawson LS Wong、Rose Yu。 0.78
Deep imitation learning for bimanual robotic manipulation. 双方向ロボット操作のための深い模倣学習 0.71
arXiv preprint arXiv:2010.05134, 2020. arXiv preprint arXiv:2010.05134, 2020 0.80
3 13 3 13 0.85
英語(論文から抽出)日本語訳スコア
[61] Vinicius Zambaldi, David Raposo, Adam Santoro, Victor Bapst, Yujia Li, Igor Babuschkin, Karl Tuyls, David Reichert, Timothy Lillicrap, Edward Lockhart, et al Relational deep reinforcement learning. [61] vinicius zambaldi, david raposo, adam santoro, victor bapst, yujia li, igor babuschkin, karl tuyls, david reichert, timothy lillicrap, edward lockhart, et al relational deep reinforcement learning 0.64
arXiv preprint arXiv:1806.01830, 2018. arXiv preprint arXiv:1806.01830, 2018 0.80
3 [62] R Zollner, Tamim Asfour, and Rüdiger Dillmann. 3 [62] R Zollner, Tamim Asfour, Rüdiger Dillmann。 0.79
Programming by demonstration: Dual-arm In 2004 IEEE/RSJ International Conference on manipulation tasks for humanoid robots. programming by demonstration: dual-arm in 2004 ieee/rsj international conference on manipulation tasks for humanoid robots (英語) 0.79
Intelligent Robots and Systems (IROS)(IEEE Cat. Intelligent Robots and Systems (IROS)(IEEE Cat) 0.82
No. 04CH37566), volume 1, pages 479–484. いいえ。 04ch37566),巻1,巻479-484。 0.71
IEEE. 3 14 IEEE。 3 14 0.84
英語(論文から抽出)日本語訳スコア
Appendix A Task Descriptions and Details 付録 タスクの説明と詳細 0.62
Figure 7: The environments used in our experiments 図7:実験で使用する環境 0.69
A.1 Environment Descriptions Push with Door, Figure 7(a) The two robots are placed on both sides of a 100cm × 70cm table, opposite each other (all robot manipulation environments are same for this setting). A.1 環境記述 図7(a)2つのロボットは100cm×70cmのテーブルの両側に配置され、反対側に配置されます(この設定では、すべてのロボット操作環境が同じです)。 0.81
The goal is to push a block through a sliding door and make it reach the target position on the other side of the door. 目標は、ブロックをスライドドアに押し込み、ドアの反対側の目標位置に到達させることだ。 0.61
We put a spring on the sliding door, such that it will close automatically in the absence of external force. 私たちは、外力がなければ自動的に閉じるように、スライドドアにバネをつけました。 0.59
The initial positions of the projections of the two grippers onto the table plane are sampled in a 40cm × 40cm square on the table (all robot manipulation environments are same for this setting). 2つのグリップのテーブル面への投射の初期位置は、テーブル上の40cm×40cm四角形にサンプリングされる(この設定では全てのロボット操作環境が同じ)。 0.83
The initial position of block and the goal position are sampled from a circle with radius 20cm around the table center. ブロックの初期位置と目標位置は、テーブル中心の周囲に半径20cmの円からサンプリングされる。 0.78
We fix the initial height of the two grippers (all robot manipulation environments are same for this setting), and set the initial position of door at the center of the table. 2つのグリッパーの初期高さ(ロボット操作環境はこの設定で同じ)を修正し、テーブルの中央にドアの初期位置を設定する。
訳抜け防止モード: 我々は2つのグリッパーの最初の高さを固定する (この設定ではロボット操作環境はすべて同じ) テーブルの中央にドアの位置を設定しました
0.74
Open box and Place, Figure 7(b) The task is to pick up the block on the table and place it into the box in table center. オープンボックスとプレース、図7(b) タスクは、テーブル上のブロックをピックアップして、テーブルセンターのボックスに配置することです。 0.73
We put a spring on the sliding lid of the box, so it will close automatically in the absence of external force. 箱の滑り蓋にバネをかけたので、外力がなければ自動的に閉じます。
訳抜け防止モード: 私たちは箱の滑る蓋にバネをかけた。 外部の力がなければ 自動的に閉じます
0.65
The initial positions of the block and goal are sampled from a circle with radius 20cm at the center of the table, outside the box. ブロックとゴールの最初の位置は、箱の外側のテーブルの中央に半径20cmの円からサンプリングされる。 0.68
Stack Tower, Figure 7(c) The task is to stack several blocks into a tower. スタックタワー 図7(c) タスクは、いくつかのブロックをタワーに積み上げることです。 0.77
All blocks are randomly sampled from a circle with radius 20cm around the center of the table. すべてのブロックは、テーブルの中央に半径20cmの円からランダムにサンプリングされる。 0.81
We perform curriculum learning in this environment, with one more block sampled in each stage. この環境でカリキュラム学習を行い、各ステージにもう1つのブロックをサンプリングします。 0.72
In the first stage in the curriculum, we have one block, we sample the corresponding goal with the height randomly from 0cm to 30cm. カリキュラムの第1段階では、1つのブロックがあり、対応するゴールを0cmから30cmのランダムな高さでサンプリングする。 0.72
In each following stage, we sample one more object block and goal. 次の段階では、もう1つのオブジェクトブロックとゴールをサンプリングします。 0.63
After the first stage, the goals will form into a tower. 第1ステージの後、ゴールは塔に形成される。 0.68
Rearrangement, Figure 7(d) The task is to push multiple blocks to their corresponding target positions on the table. 再配置 図7(d) タスクは、複数のブロックをテーブル上の対応するターゲット位置にプッシュすることです。 0.85
We perform curriculum learning in this environment, with one more block sampled in each stage. この環境でカリキュラム学習を行い、各ステージにもう1つのブロックをサンプリングします。 0.72
All blocks and goals are randomly sampled from a circle with radius 20cm around the table center. すべてのブロックとゴールは、テーブル中心の半径20cmの円からランダムにサンプリングされる。 0.77
We train our method up to 3 blocks (3 curriculum stages) and generalize the approach to up to 8 blocks. 我々は,最大3ブロック (3 のカリキュラム段階) までメソッドを訓練し,アプローチを最大8ブロックまで一般化する。 0.84
A.2 Observation space The observation vector consists of object states, robot states, and the goals for the objects. A.2 観測空間 観測ベクトルは、対象状態、ロボット状態、対象物の目標から構成される。 0.73
Specifically, the object states consist of the position and velocity of all the objects. 具体的には、対象状態は全ての対象の位置と速度からなる。 0.79
The robot stages consist of the position and velocity of the gripper and the robot joints. ロボットステージは、グリップとロボット関節の位置と速度で構成される。 0.66
The goal vector consists of the target position coordinates. 目標ベクトルは、目標位置座標からなる。 0.70
A.3 Action space A.3アクションスペース 0.72
For robot tasks, the action is a 8-dimensional vector, which is the concatenation of two 4-dimensional action vectors for each robot. ロボットタスクでは、アクションは8次元ベクトルであり、各ロボットに対して2つの4次元のアクションベクトルを連結する。 0.83
For each robot, the first 3 elements indicates the desired position 各ロボットにとって 最初の3つの要素は 所望の位置を表します 0.72
15 15 0.85
英語(論文から抽出)日本語訳スコア
shift of the end-effector and the last element controls the gripper fingers (locked in push with door scenario). エンドエフェクタと最後の要素のシフトはグリッパーの指を制御する(ドアのシナリオで押されてロックされる)。 0.73
For mass point tasks, the action is a 4-dimensional vector, similarly combined with two 2-dimensional vectors for each mass point. 質量点問題に対して、作用は4次元ベクトルであり、同様に質量点ごとに2次元ベクトルと結合する。 0.69
The 2-dimensional action vector only controls the the desired position shift of the end-effector in a plane. 2次元のアクションベクトルは、平面内のエンドエフェクタの所望の位置シフトのみを制御する。 0.82
B Training Sample Number B トレーニングサンプル数 0.78
For Push with Door and Open Box and Place, we use 10M samples to train; For Tower Stack and Rearrangement, we leverage curriculum learning and increase the number of blocks by one in each stage. Push with Door and Open Box and Placeでは、トレーニングに1000万のサンプルを使用します。 Tower StackとRearrangementでは、カリキュラムの学習を活用して、各ステージに1つずつブロック数を増やします。 0.74
Specifically, we list the number of samples for each stage of training in Table 5. 具体的には、表5のトレーニングの各段階でのサンプル数を列挙する。 0.81
Table 5: Training samples for curriculum learning in each stage 表5:各段階のカリキュラム学習のための研修サンプル 0.89
Num of Block Tower Stack Rearrangement ブロックタワースタック再配置の数値 0.79
1 2 × 106 1 × 106 1 2 × 106 1 × 106 0.85
2 6 × 106 3 × 106 2 6 × 106 3 × 106 0.85
3 9 × 106 5 × 106 3 9 × 106 5 × 106 0.85
Computation. In our experiments, we use a single GPU and 8 CPU cores for all the method on each task. 計算。 実験では、各タスクのすべてのメソッドに1つのGPUと8つのCPUコアを使用します。 0.70
16 16 0.85
                                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。