論文の概要、ライセンス

# (参考訳) モンテカルロ ツリー検索します。 [全文訳有]

Ordinal Monte Carlo Tree Search ( http://arxiv.org/abs/2101.10670v1 )

ライセンス: CC BY 4.0
Tobias Joppen and Johannes F\"urnkranz(参考訳) 多くの問題設定、特にゲームプレイでは、エージェントはアクションに対しておそらく遅延した報酬を受け取る。 多くの場合、報酬は手作りであり、自然に与えられるものではない。 これらの値が任意に選択され、学習者の振る舞いが異なるエンコーディングで変わるため、勝利が1つで損失がマイナス1個であるような単純な端末のみの報酬でさえも、偏りのないステートメントとは見なせない。 良い報酬について論じることは困難であり、エージェントのパフォーマンスは報酬信号の設計に依存することが多い。 特に、自然界の状態が序列ランキングのみを持ち、ゲーム状態値間の有意義な距離情報が得られない領域では、数値報酬信号が必ずバイアスされる。 本稿では,MDP を解くアルゴリズムである MCTS について考察し,報酬の利用に関する再帰的な問題を強調し,報奨の順序的処理がこの問題を克服することを示す。 汎用的なゲームプレイフレームワークを用いて,提案手法が提案するordinal mctsアルゴリズムが,新たなbanditアルゴリズムに基づいて他のmcts変種よりも優位であることを示す。

In many problem settings, most notably in game playing, an agent receives a possibly delayed reward for its actions. Often, those rewards are handcrafted and not naturally given. Even simple terminal-only rewards, like winning equals one and losing equals minus one, can not be seen as an unbiased statement, since these values are chosen arbitrarily, and the behavior of the learner may change with different encodings. It is hard to argue about good rewards and the performance of an agent often depends on the design of the reward signal. In particular, in domains where states by nature only have an ordinal ranking and where meaningful distance information between game state values is not available, a numerical reward signal is necessarily biased. In this paper we take a look at MCTS, a popular algorithm to solve MDPs, highlight a reoccurring problem concerning its use of rewards, and show that an ordinal treatment of the rewards overcomes this problem. Using the General Video Game Playing framework we show dominance of our newly proposed ordinal MCTS algorithm over other MCTS variants, based on a novel bandit algorithm that we also introduce and test versus UCB.
公開日: Tue, 26 Jan 2021 10:01:27 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Noname manuscript No. (will by the 無名の写本No。 (意志) 0.62
inserted be editor) Ordinal Monte Carlo Tree Search Tobias 挿入 な 編集者) 普通モンテカルロツリー検索トビアス。 0.64
Johannes F¨urnkranz ヨハネス・f・シュルンクランツ 0.25
Joppen · Received: ジョッペン · 受賞。 0.55
date / Accepted: date 日付 / 受理。 日付 0.65
1 2 0 2 n a J 6 2 ] I A . 1 2 0 2 n a J 6 2 ] I A。 0.77
s c [ 1 v 0 7 6 0 1 . s c [ 1 v 0 7 6 0 1 . 0.85
1 0 1 2 : v i X r a 1 0 1 2 : v i X r a 0.85
Abstract In many problem settings, most notably in game playing, a posan agent receives naturally not handcrafted are its for reward delayed sibly and rewards those actions. 抽象 ゲームプレイで特に顕著な問題設定では、ポサンエージェントが自然に手作りでなければ報酬を受け取り、それらのアクションに報酬を与える。 0.61
Often, equals −1, losing terminal-only equals 1 and simple given. しばしば −1 と等しく、終端のみの損失は 1 と単純に等しい。 0.73
Even can rewards, like winning unbiased as not be seen an are chosen and arbitrarily, the bestatement, since these values learner may havior of the hard to argue about good encodings. これらの値学習者は良いエンコーディングについて議論するのは難しいかもしれないので、見当たらないような偏見のない勝利が選択され、任意に提示されるような報酬さえも得る。 0.60
change with different It is signal. 異なる変更それは信号です。 0.71
reward of design the on depends often an of the rewards agent performance the and have only states in In particular, domains where by nature an ordinal ranking and where meaningful distance information between game state values is not available, a numerical reward signal is necessarily biased. デザイン上の報酬は、多くの場合、報酬エージェントのパフォーマンスの1つに依存し、特に、順序付けランキングがあり、ゲームの状態値間の意味のある距離情報が利用できない場合、数値の報酬信号が必ずしもバイアスされる領域のみの状態を有する。 0.66
In this paper we take a look at Monte Carlo Tree Search (MCTS), a popular algorithm to solve MDPs, highlight a reoccurring problem concerning probits this overcomes rewards treatment rewards, the of ordinal an show that and of use the General Video Game Playing lem. 本稿では、MDPを解くための一般的なアルゴリズムであるモンテカルロツリーサーチ(MCTS)を見て、これは報酬治療報酬を克服するプロビットに関する繰り返し発生する問題を強調します。
訳抜け防止モード: 本稿では,モンテカルロツリーサーチ(MCTS)について考察する。 MDPを解くための一般的なアルゴリズムで、これは報酬治療報酬を克服するプロビットに関する繰り返しの問題を強調します。 通常のビデオゲームプレイングレムを使用するショーの順序。
0.69
Using our framework we show dominance newly of proposed ordinal MCTS algorithm over other MCTS variants, based on a novel bandit algorithm that we also introduce 我々のフレームワークを用いて,提案した順序付きMCTSアルゴリズムの他のMCTS変種に対する優位性を示す。
訳抜け防止モード: フレームワークを使用。 新規に提案されたMCTSアルゴリズムの他のMCTS変異体に対する優勢性を示す。 新たなバンディットアルゴリズムに基づいて
0.82
versus UCB. UCB 対 UCB。 0.74
and test a Markov そして テスト Markov (複数形 Markovs) 0.63
Introduction 1 selecting by decision solves an learning, reinforcement In agent (MDP) process assume numeralgorithms state-of-the-art long-term reward. 導入1 決定による選択は、学習、強化エージェント(mdp)プロセスが、最先端の長期報酬を想定する。 0.56
Most its that maximize actions but many other rewards. アクションを最大化するが、他の多くの報酬。 0.71
is reward ical In like finance, domains real-valued naturally given, cases, numerical numerical representation. is reward ical金融のように、ドメインは自然に与えられ、ケースは、数値表現。 0.67
domains do natural have a reward not In such of their algoperformance experts they values are often handcrafted so that optimize by the rewards. ドメインは、価値がしばしば手作りにされ、報酬によって最適化されるような、アルゴパフォーマンスの専門家にはない報酬を自然に与えます。 0.55
Hence, good about argue hard is and not process rithms. したがって、議論するのが難しく、プロセスの厳しさではない。 0.63
This such to trivial, it is such special biases. これはささいなことですが、特別なバイアスです。 0.73
contain and erroneous rewards may handcrafted cases be easily For as domains with true ordinal rewards, it has been shown that it is impossible create numerito cal rewards that not biased. 真の順序報酬を持つドメインとして、バイアスされていない数値カル報酬を作成することは不可能であることが示されています。 0.61
For example, [21] argue that emotions need to be treated as are information. 例えば、[21] 感情は情報として扱われる必要があると主張する。 0.82
ordinal real-valued domains tell whether to it fact, ordinal or impossible hard are or is often In reward without numerical handcrafted design by nature. 順序付き実数値ドメインは、それが事実であるか、順序付きであるか、あるいは不可能であるかを判断する。 0.58
Experts may even thinking about and most the reward is since using numerical alternatives, state of art algorithms need them. 専門家が考えることさえ可能で、ほとんどの報酬は数値的な代替手段を使うため、最先端のアルゴリズムがそれを必要としている。 0.52
英語(論文から抽出)日本語訳スコア
2 Tobias Joppen, 2 トビアス Joppen 0.56
Johannes F¨urnkranz ヨハネス・f・シュルンクランツ 0.25
to rewards learning paper we want this In numerical that emphasize be worth-while and truth it may the machine for of options, ordinal being other on only one them. へ 報酬学習 紙を欲しがる 価値と真実を強調する数値では、選択肢の機械であり、その1つだけに他である。 0.63
A popular example where use the of numerical a minimalistic medicine treatment outcomes possible three setting: Consider and healthy, dead. 数値的最小主義的な治療結果を使う一般的な例は、考慮と健康、死の3つの設定が可能である。 0.65
In the process of reward shaping one assigns a numerical value to each outcome. 報酬形成の過程では、各結果に数値を割り当てる。 0.61
Those numbers define the trade-off between how many patients have to be healed until one patient may die in comparison to no treatment to avoid this (all patient unchanged). これらの数字は、これを避けるために1人の患者が死ぬまで何人の患者が癒される必要があるかのトレードオフを定義します(すべての患者は変わらない)。 0.64
It is impossible the could one score ordinal trade-off with outcomes define numerical values. 結果と順序のトレードオフが数値を定義することは不可能である。 0.71
Using to an healthy > unchanged > dead without as ordered be trade-off. 正常> 変化> 死は、トレードオフを命令せずに使用する。 0.62
implicit In this paper we an algorithm that present HO-UCB, is able to solve this treatment problem without trading off healed 暗黙的 本論文では, HO-UCB を応用したアルゴリズムにより, この治療法の問題点を解くことができる。 0.70
an and dead patients. 患者さんと死亡者です 0.77
not do community コミュニティではなく 0.82
the closer ground look values a of より近づき 地面見 a の値です。 0.66
fails is treatment: ordinal 失敗は治療です Ordinal 0.52
have to be to have a やらないと have (複数形 haves) 0.45
unchanged MCTS is solve MDPs. 変わらない MCTS は MDP を解く。 0.75
MCTS algorithm to popular a is (MCTS) search tree Monte Carlo in top-ranked algorithms [16] as such systems, AlphaGo or in many AI successful used problem of MCTS with [12,8]. MCTSアルゴリズムは,AlphaGoのようなトップランクアルゴリズム[16]や,MCTSと[12,8]を併用した多くのAIが成功したような,MCTSの検索ツリーMonte Carloを検索する。 0.78
A reoccurring competitions the playing game video general danger: As limited look at a example we a in behavior time resources is its case of running to eventually reach the generic platform game, where an agent has to jump over deadly gaps to goal at the right. 繰り返し行われる競争は、ゲームビデオの一般的な危険性を競合します。例を限定的に見ると、行動時間のリソースは、最終的に一般的なプラットフォームゲームに到達するための実行ケースであり、エージェントは右のゴールに致命的なギャップを飛び越えなければなりません。 0.69
Dying is very bad, and the more the agent proceeds the right, the better. 死は非常に悪く、エージェントが右に進むほど、より良くなる。 0.61
still jump stand The actions : jumping leads to problem occurs by comparing the and either jumping right to before a successfully proceeded the because than state better by the agent (death) state Standing a gap, or the worst possible in case the jump attempt failed. まだジャンプスタンド アクション:ジャンプは、エージェント(死)状態がギャップを立って、またはジャンプ試行が失敗した場合、可能な限り最悪の状態よりも良い状態よりも、正常に進む前に右にジャンプを比較することによって発生する問題につながります。 0.68
still, to on the other hand, safely avoids death, but will never advance to a better game state. それでも、一方では、安全に死を避けますが、より良いゲーム状態には進まないでしょう。 0.78
MCTS averages the obtained rewards gained by experience, which lets it often choose the safer ending with experiences (few) the because game, in progress not and action therefore the jump pull its reward steady but reward the death down average of below the mediocre of cowardly standing still. MCTSは経験によって得られた報酬を平均します。これにより、多くの場合、経験(少ない)でより安全な終了を選択することができます。
訳抜け防止モード: MCTSは、得られた報酬を経験によって得られる平均値で評価する。 進行中のノーとアクションのため、ジャンプは報酬を安定させます だが 死の平均は いまだに 卑劣な立場の 中間以下だ
0.55
Because of this, the behavior of MCTS has also been called the in literature [6,10]. このため、MCTSの行動は文献[6,10]でも呼ばれています。 0.71
the experiences platform game need those Transferring In this paper, we present an algorithm that only depends on pairwise of meaningful distances. 本論文では,プラットフォームゲームに必要な体験について,有意義な距離のペアワイズのみに依存するアルゴリズムを提案する。 0.68
jump selects and better is scale, an in ordinal comparisons algorithm Ordinal MCTS different than worse. jump selects and better is scale, an in Ordinal comparisons algorithm Ordinal MCTS different than worse。 0.78
We this call using the General Video Game AI MCTS variants as our problem definitions and MDPs introduce MABs section we In the next solutions known already as and MCTS PB-MCTS MultiSBM, those solve experiments by present followed algorithms, our 3.3, we present novel Section to 4.4). 我々は、General Video Game AI MCTS の変種を問題定義として使用し、MDP に MABs セクションを導入します。 MCTS PB-MCTS MultiSBM として知られる次のソリューションでは、現在のアルゴリズムによる実験を解決し、新しいセクションを4.4に提示します。 0.76
and (Sections 4 algorithms compare to the existing ones そして(シリーズ4)アルゴリズムは既存のアルゴリズムと比較する 0.76
eliminates scale ordinal an into stand still often it more if over and (O-MCTS) compare it to [13]. スケール順序を取り除き、[13]と比較すると、(o-mcts) の方がずっと多くなる。 0.58
framework (GVGAI) フレームワーク(GVGAI) 0.73
and UCB, problems. そして UCB は問題だ。 0.79
In how our to 2 Monte Carlo Tree Search section, briefly In this we are which commonly used introduce the multi-armed MABs: UCB1. どのようにして へ 2 モンテカルロツリー検索セクション、簡単にここでは、一般的に使用されるマルチアームMAB:UBB1を紹介します。 0.60
recapitulate Monte for solving Markov bandit マルコフのバンディットを解くためにモンテを奪還する 0.40
some and search tree Carlo its of (MDP). いくつかはCarlo it (MDP) を検索する。 0.74
Prior processes decision to problem (MAB) used common and a algorithm to 問題に対する事前プロセス決定 (mab) は共通とアルゴリズムを用いて行う。 0.81
variants, this, we solve 変種、これ、私達は解決します 0.55
英語(論文から抽出)日本語訳スコア
Ordinal Monte Carlo Tree Search モンテカルロ ツリー検索します。 0.69
3 2.1 Multi-Armed Bandits A Multi-Armed Bandit of set a has One faces: common a is (MAB) one problem often player the chosen, is choose to arms, possible actions (or A) one an Once from. 3 2.1 マルチアーマド・バンド 集合 a のマルチアーマド・バンド 1 つの面: 共通の a は (MAB) 選択した問題の一つは、しばしばプレイヤーが選択し、武器、可能なアクション(または A)を1回ずつ選ぶことである。 0.77
arm a are rewards designed unknown from a sampled reward a receives distribution Xa. アームAは サンプルの報酬から 未知の報酬として 流通Xaを受信する 0.72
Often r (r ∈ R). しばしば r (r ∈ R) である。 0.85
numerical to be rewards. 数値は報酬になります。 0.64
For numerical best task The is to identify the optimal arm, which the returns arm a∗ best rewards in average, rewards, the can be defined to the be the arm with highest or a∗ = arg maxa E[Xa]. 数値的最善のタスクでは、返されるarm a∗ が平均で最高の報酬を与える最適な arm を識別し、最大値の arm または a∗ = arg maxa e[xa] と定義できる。 0.74
For necessarily not function reward the rewards, ordinal be does ∈ O can in O, where in R, function preference via ordered be elements all but a given o for R such a preference o1 < o2. 必ずしも関数に報酬を与えないためには、順序数 be ∈ O can in O が成り立つが、R では順序数による関数の選好は R の任意の o 以外の要素であり、そのような選好 o1 < o2 である。 0.69
Notice, function is given through the natural ordering. 注意:機能は自然順序付けによって与えられる。 0.67
that from O, need Since one can not add together or calculate an average of elements we a best arm is. oから言えば、最高の腕が持つ要素の平均を加算したり計算したりできないので、必要です。 0.70
Other different definition of what not the than for numerical rewards, there is paper, we this optimality. 数値報酬よりもないものの他の異なる定義、紙があります、我々はこの最適性。 0.76
definition the about what consensus such interested are of a Inin the borda winner [3] the arm that has highest chance of beating an other randomly the chosen arm. 定義 そのような関心を持つコンセンサスについて、inin the borda winner [3] the armは、選択された腕をランダムに打ち負かす確率が最も高い。 0.78
We present our algorithm to solve ordinal MABs in a later section. 後者のセクションで、順序付けMABを解くためのアルゴリズムを紹介します。 0.57
is a in be modeled は あ... で モデル化される 0.55
be formalized as search assumes actions. な 形式化 として 捜索は行動を起こす 0.55
by This are fixed. これにより固定される。 0.62
A Markov Decision Process played. マルコフ決定プロセスが実行されます。 0.52
A MDP can the 2.2 Markov Decision Process a scenario in which an agent moves through Conventional Monte Carlo tree by a since a MAB, the not can different state taking space reward distributions and their arms takes [14] (MDP) level by not only being in one fixed state with its fixed arms, but by changing MABs to a next following: action an the state every time states S. set of A (finite) – subset A(s) ⊂ A actions A the perform. MDPはできます 2.2 マルコフ決定プロセス エージェントが従来のモンテカルロ木をaからaまで移動し、noが空間報酬分布を取り、そのアームが[14](mdp)レベルに達するシナリオは、固定されたアームで1つの固定状態にあるだけでなく、mabを次のものに変更することで実現される。
訳抜け防止モード: MDPはできます 2.2 Markov Decision Process a since a MAB によってエージェントが従来のモンテカルロ木を移動するシナリオ 異なる状態が空間報酬分布を取ることができず、その腕は固定された腕で1つの固定状態にあるだけでなく、その固定状態にあることによって[14](MDP)レベルを取ります。 しかし、MABを次のものに変えることで アクション A (有限 ) – 部分集合 A(s ) - A のアクション A を実行する。
0.79
– agent can A (finite) set of only Sometimes, state applicable of actions is in a s. | δ(s(cid:48) state transition that invoking function – A Markovian probability denoting s, a) s(cid:48). エージェントは A (有限) の s. | δ(s(cid:48) 状態遷移に作用を適用できるが、これは s, a) s(cid:48) を意味するマルコフ確率である。 0.64
leads state action a in to state agent the s function r(s) ∈ R that defines A reward in receives agent the – s. state reward the states µ(s) ∈ [0, 1], start the MDP starts that probability the – of A distribution defining (cid:54)= s0. state action a in to state agent the s function r(s) ∈ R which define A reward in receive agent the – s. state reward the state μ(s) ∈ [0, 1], start the MDP start that probability the – of A distribution define (cid:54)= s0. 0.86
s0, with µ(s0) = 1 and µ(s) = 0 ∀s that single in state. s0 は μ(s0) = 1 であり、μ(s) = 0 は状態が単体である。 0.84
We start state assume a for which A(s) = ∅. 状態は a を A(s) = s と仮定する。 0.61
We terminal states – A set assume that only terminal are of states non-zero reward. ターミナルステート – セットは、ターミナルのみがステートの非ゼロ報酬であると仮定します。 0.67
associated with a | to learn a policy π(a the probability of that defines The s) (cid:35) (cid:34) ∞(cid:88) | optimal policy π∗(a the s) maximizes state expected, (cid:90) (cid:90) V (st) = E γtr(st) t=0 | | = r(st) + γ A S ∈ discount a t. Here, all for is time policy maximizes V (st) [0, 1) γ an sequence. a | と関連づけられた政策 π(a) を学習するために、(cid:35) (cid:34) ∞(cid:88) | 最適政策 π(a the s) は、予想される状態を最大化し、(cid:90) (cid:90) V (st) = E γtr(st) t=0 | | = r(st) + γ A S ∈ discount a t である。
訳抜け防止モード: a | に付随して、ポリシー π(a の確率は s ) ( cid:35 ) ( cid:34 ) ∞(cid:88 ) | 最適ポリシー π∗(a the s ) が期待される状態を最大化する。 (cid:90 ) (cid:90 ) v (st ) = e γtr(st ) t=0 | | = r(st ) ここで、すべての is 時間ポリシーは v ( st ) [ 0, を最大化する。 1 ) γ シーケンス 。
0.84
For finding events later influence of optimal dampens the state/action exploration/exploita tion so-called The the needs to solve problem. 後の最適減衰の影響を見つけるために、状態/行動探索/探索はいわゆる問題解決の必要性を損なう。 0.61
the off trade to required is it exhaustively. 必要なオフトレードは 徹底的なものです 0.51
Hence, sample to large too usually したがって、サンプルは通常大きすぎる。 0.77
The optimal factor, which policy, one are spaces 最適な要因は、どの政策、一つは空間です。 0.67
selecting an action a アクションaを選択する 0.81
cumulative reward task is s. The 累積 報酬 task is s. 0.69
steps in the step (複数形 steps) 0.40
, δ(st+1 at, st)π(at , δ(st+1) at, st)π(at) 0.82
st)V (st+1). st)V (st+1)。 0.87
(1) (1) 0.85
英語(論文から抽出)日本語訳スコア
4 Tobias Joppen, 4 トビアス Joppen 0.56
Johannes F¨urnkranz ヨハネス・f・シュルンクランツ 0.25
current, best policy (exploitation) with an exploration of unknown parts the improvement of space. 空間の改善を未知の部分の探索と現在の、最もよい方針(探検)。 0.66
state/action the of of variation ordinal like it We also investigate an Just [20] classical MDP: O-MDP the ordinal MDP does the is for the ordinal MAB, numerical defiordinal thus rewards and use section, we last in the applied here. 我々はまた、Just [20] の古典的 MDP: O-MDP の順序的 MDP は、順序的 MAB の等式であり、数値的 defiordinal は、報酬と使用セクションであり、ここでは、最後に適用される。 0.78
As described can nitions of not be regret optimality and ordinal interested rewards. 述べられているように、後悔の最適性や順序的な興味ある報酬ではないニションがある。 0.43
The borda winner are of borda winner maximizes in case in the the chance of beating the other arms. ボルダの勝者は他の腕を打つチャンスの場合には、ボルダの勝者は最大です。 0.60
The chance an arm a to beat all other arms is called for borda score see Section 3.1.1). 腕aが他のすべての腕を打ち負かす確率はボルダスコア(第3.1節参照)と呼ばれる。 0.65
Each non-optimal arm has a lower than borda score (B(a)a∗ difference the is of instead arm a optimal non playing arm. 各非最適アームは、ボルダスコア(B(a)a)の差よりも低く、その代わりにアームが最適な非演奏アームである。 0.66
The optimal the regret a of = B(a∗) − B(a). 最適は、 = B(a∗) − B(a) の後悔 a である。 0.81
Obviously regreta∗ regreta not that = 0. 明らかに後悔* 後悔は、それ = 0 ではない。 0.55
Note is it it score: borda of is direct it to bandit numerical possible to use one optimize the borda score, since is not the reward that is visible for the Further more, the borda score is not only dependent on agent. ボルダのスコア(borda of it)は、ボルダのスコアを最適化できる数値をバンディットに誘導するものであるが、ボルダのスコアはそれ以上に見える報酬ではないため、ボルダのスコアはエージェントにのみ依存するわけではない。
訳抜け防止モード: 注意すべき点は、it it score : borda of is direct it to bandit numerical can use one optimize the borda score, なぜなら、それ以上に目に見える報酬ではないからである。 ボルダスコアはエージェントにのみ依存するわけではない。
0.72
the distribution of the current arm, but also is dependent on the reward distributions of all those). 現在の腕の分布は、しかし、また、すべてのそれらの報酬分布に依存します)。 0.75
of comparisons on defined is score the borda (since arms other 定義されている比較では ボルダ(他の腕)を得点します 0.64
and MDP, we そして、MDP。 私たち 0.68
2.3 Multi-armed Bandits introducing After problem frameworks MAB the common algointroduce start with a popular rithms those. 2.3 マルチアームバンドの導入 問題フレームワークMABの後、一般的なアルゴインイントロジェクションは人気のあるリズムから始まる。 0.64
We to solve algorithm to solve MABs, where task is the to return by repeatedly pulling one of action) with the highest identify the arm (or the possible state, and the arms. 我々は、最も高い腕(または可能な状態)と腕を識別し、タスクが繰り返し行動の1つを引っ張ることで復帰するタスクであるMABを解くアルゴリズムを解く。 0.73
In this setting, there is only one non-terminal to achieve the hightask is exploration/exploita tion the times. この設定では、ハイタスクを達成するための非終端点は、時間の探索/探索である。 0.60
Here infinite theoretically by est playing reward average arm trying best-known the play player must occurs to maximize the dilemma because the all for average (exploitation), but needs to search the best arm among alternareward also bandit resolving tives technique for this dilemma in problems (exploration). ここでは、理論上は、最もよく知られた平均的な腕をプレーすることで、プレイヤーは、すべて(探索)のためにジレンマを最大化しなければならないが、この問題(探索)において、このジレンマに対するtivesテクニックを帯域分割して解決する必要がある。 0.60
A well-known (UCB) confidence bounds the upper is expected re[2]. よく知られた (UCB) 信頼の境界は上が re[2] と予想される。 0.69
UCB estimates upper bounds on the (cid:113) 2 ln n action with chooses the associated highest and arm, the ward for upper bound. UCBは(cid:113) 2 ln nアクション上の上界を推定し、関連する上界と腕、上界の区を選択します。 0.66
We a certain a bonus simplest UCB policy (2) gives the bound. 最も単純な UCB ポリシー (2) がバウンダリを与えます。 0.55
The and update the outcome then observe ¯Xj, which visits, to the average reward depends on the thereby increasnumber of (cid:115) nj ing the selected in subsequent that have not yet been frequently played are arms that chance iterations. 結果の更新と更新は、平均報酬は(cid:115)njのインクリメント数に依存し、その後、まだ頻繁に再生されていない選択されたものは、機会反復の腕です。 0.64
2 ln n ¯Xj + nj arms with term favors The first the payoffs, while high second to by [0, 1]. 2 ln n \xj + nj arms with term は最初の支払いを好んでいるが、high second は [0, 1] である。 0.79
In bound be Section expected reward is [2]. 有界な部分期待報酬は [2] である。 0.64
The ordinal MABs. to that rithms are able solve 通常のMAB。 rithmsが解決できるのは 0.61
term guarantees 3.1, we introduce 用語保証 3.1 紹介します 0.72
exploration two algo- U CB1 = 探査2号アルゴ- U CB1 = 0.69
(2) 2.4 Duelling Bandits two arms are step time dueling bandits, where at each bandits A related topic to ordinal are arm won indicating which gets agent and pulled comparison. (2) 2.4 デュエルバンド 2つの腕はステップタイムのデュエルバンディットであり、それぞれのバンドでは、オーディナルに関連するトピックは、エージェントとプルの比較を示す腕の勝利である。
訳抜け防止モード: (2) 2.4 デュエル・バンディット 2本腕はステップタイム・デュエル・バンディットで 各バンドでは、ordinalに関する関連するトピックが、どのエージェントとプル比較を取得するかを示すarm wonである。
0.76
direct the in one the reward element best identify to is pairs repeated reality, In of a the often used dueling of different teams battle each other. 1つに指示する 報奨要素 最もよく識別されるのは、異なるチームが互いに戦うためによく使われるデュエルにおいて、ペアの繰り返し現実である。 0.65
The biggest downside leagues where different set, like in most sport of this approach (at least from a or optimization point of view) is that each team energy needs to play against each other to be able to identify a winner. このアプローチのほとんどのスポーツ(少なくとも最適化の観点から)のように、異なるセットが異なる最大のマイナス面のリーグは、各チームのエネルギーが勝者を特定するために互いに戦わなければならないということです。 0.83
it would least once If team at to suffice team would per one measure only independently, teams to measure possible be to sufficeのチームが、1つの尺度ごとに独立して、計測できるチームは、少なくとも1度は。 0.80
英語(論文から抽出)日本語訳スコア
Ordinal Monte Carlo Tree Search モンテカルロ ツリー検索します。 0.69
5 the biggest difference between dueling and ordinal efficiency is identify the winner. 5 デュエルと常連効率の最大の違いは 勝者を特定することだ。 0.74
Sample to measure for is bandits, In it possible bandits: ordinal of quality one action, where compared against two always needs bandits dueling be to actions it each other. 品質の順序 1つのアクション、つまり2つのアクションと比較すると、常に2つのバンディットが相互に作用することが必要となる。
訳抜け防止モード: isバンドイットを計測するサンプル : 可能なバンドイット : 品質の順序 1 アクション 2つと比べた場合、常に互いに行動することによるバンディットが必要となる。
0.59
that reduce to has It been shown it is possible dueling bandits to common numerical relyby information preference using a optimize it bandits[1]. It can be possible dueling bandits to common numerical relyby information preference using a optimization it bandits[1] 0.56
Hence possible bandit to is ing on numerical bandit the MultiSBM algorithm intoduce following, we In the algorithms. それゆえ、bandit to is ing on numerical bandit the multisbm algorithm intoduce following, we in the algorithms (英語) 0.82
which to compare UCB and our ordinal bandit algorithm to a dueling bandits apenables proach. UCBと我々の順序付けのバンディットアルゴリズムをデュエルのバンディットに比較するためです。 0.65
the 2.5 MultiSBM learn The MultiSBM algorithm is from preference able being feedback, not while restricted to the dueling bandit framework, where two arms time are pulled at instead of one. はあ? 2.5 MultiSBM の学習 MultiSBM のアルゴリズムは,2つのアームタイムが1つではなく引き出されるデュエルブライトフレームワークに制限されているにも関わらず,フィードバックが可能だという選好から来ている。 0.51
a a numerical bandit to have is The main idea for each arm (for example using UCB). 数値的なバンドイットは、各アーム(例えば UCB を使用する)の主要なアイデアである。 0.68
In each played round last round the arm at−1 defines which used bandit will be to select arm the t current for signal feedback played at. 前回行われた各ラウンドにおいて、arm at-1はどのバンドがどのt電流でプレーするかを定義している。 0.52
The to bandit the of information preference the is be preference-learning a perform in did use MultiSBM as comparison how at−1 to at[1]. to bandit the of information preference the is be preference-learning a perform in は、at−1 と at[1] の比較として multisbm を使用した。 0.73
We baseline to compare to UCB and our ordinal algorithms. 私たちは UCB と順序アルゴリズムを基準に比較します。 0.75
to 2.6 Monte Carlo Tree Search Monte Carlo tree builds MDP. へ 2.6 モンテカルロ木検索 モンテカルロ木がMDPを構築する。 0.68
a It MCTS spends less entirely to explore MCTSが探査に費やす費用は 0.58
policy are a 1. 政策は あ... 1. 0.60
2. 3. 4. traverses 2. 3. 4. traverses 0.85
to deeper nodes へ より深く ノード 0.68
vk, for is more vkだ より多くのために 0.67
(MCTS) is search for a search partial high. (MCTS)は部分的な検索高の検索です。 0.85
tree, time evaluating less promising action sequences, but does not avoid them state the space. tree, time evaluation less potential action sequences, but not avoid their state the space. (英語) 0.76
The approximating an optimal a method the where detailed rewards which [4]: over four steps algorithm iterates Selection: tree policy Starting v0, node root from the a states until state with reached. あらすじ 最適なaメソッドを近似すると、[4]: 4ステップ以上のアルゴリズムが反復する。 選択: ツリーポリシー 開始 v0、a状態から状態が到達するまでノードルート。 0.56
is successor unvisited Expansion: One state to the successor is added tree. is successor unvisited Expansion: 後継への1つの状態が木を追加する。 0.82
Simulation: Starting new state, a so-called from the actions are played until a terminal state is reached or Backpropagation: The the state of last the reward of nodes. シミュレーション: 新しい状態を開始すると、ターミナル状態に達するか、Backpropagation: ノードのリワードが最後の状態になるまで、アクションからいわゆるアクションが再生されます。 0.84
selected (cid:115) ∗ 2 ln nv ¯Xv(a) + 2C (3) v = max a a∈Av nv(a) (a), with an exploration term(cid:112)2 ln(nv)/nv(a). 選択された (cid:115) ∗ 2 ln nv (a) + 2c (3) v = max a aservletav nv(a) (a) で、探索項(cid:112)2 ln(nv)/nv(a) を持つ。 0.91
(cid:80)nv (see derived has algorithm been 2 intermost the to is select used and a∗ ¯Xv(a) action esting the trading off as estimated reward expected = v i=0 X (i) (a)/nv(a) from nv(a) samples X (i) √ v v to C = 1/ parameter C is The trade-off to conensure been 2, which rewards ∈ [0, 1] subscript v when following, we will often omit vergence for context. (cid:80)nv (導出物を参照) nv (導出物はアルゴリズムが2インターマストで、to が選択されている) が 2インターマターであり、a を推定報酬期待 = v i=0 X (i) (a)/nv(a) が nv(a) サンプル X (i) から C = 1/ パラメータ C へのトレードオフは 2 であり、後続すると ∈ [0, 1] サブスクリプト v に報酬を与える。 0.76
from the clear is it i.e., exceeded. 明らかなのは I. E. 0.40
rollout is random depth limit a simulation is backed up through all ロールアウトはランダムな深さ制限だ シミュレーションは全部でバックアップされる 0.75
performed, is from in a 実行され from (複数形 froms) 0.46
the node often [11]. ノード よくある[11]. 0.57
set In the The UCT formula をセットします。 UCT公式 0.52
shown the UCB1 by v 示しました UCB1 by v 0.80
has あり 0.42
英語(論文から抽出)日本語訳スコア
6 Tobias Joppen, 6 トビアス Joppen 0.56
Johannes F¨urnkranz ヨハネス・f・シュルンクランツ 0.25
Fig. 1: Three フィギュア。 1:三 0.61
nontransitive non‐transitive 0.57
actions. The tree 行動だ あらすじ 木 0.53
introduces a bias 紹介 あ... bias 0.53
to solve nontransitivity. 2.7 へ 解決 非透過性 2.7 0.60
Preference-Based Monte Carlo Tree Search 選好に基づくモンテカルロ木探索 0.74
(PB-MCTS) was feedback preference-based A version uses that of MCTS form of rewards in preferences agents receive duced by setting, this [9]˜. (PB-MCTS)はフィードバックの優先度ベースのバージョンで、エージェントが設定によって誘導される設定でMCTS形式の報酬を使用します。 0.65
In available, not states about feedback Hence, compared be only can it is single s (cid:54)∼ s(cid:48) s(cid:48) (cid:31) s, or s (cid:31) s(cid:48) s(cid:48), (incomparable). 可利用では、フィードバックに関する状態ではなく、比較できるのはシングルs (cid:54) = s(cid:48) s(cid:48) (cid:31) s, or s (cid:31) s(cid:48) s(cid:48) s(cid:48) (incomparable) のみである。 0.74
(dominance), state i.e., s An iteration of PB-MCTS contains the same abstract steps their like MCTS, but foremost, and tion differs. PB-MCTS の反復は、MCTS と同様の抽象的なステップを含むが、第一に、および tion は異なる。
訳抜け防止モード: (支配)、状態、すなわち s PB - MCTS の反復は、MCTS と同様の抽象的なステップを含む。 しかし 何よりも 内容が異なります。
0.71
First it is impossible to use preference on a information state second a trajectory, whereas single samples only since iteration, MCTS a it is but iteration per path select not does PB-MCTS comparison. 第一に、情報状態のセカンドを軌道として使用することは不可能である一方、単一のサンプルは反復以来のみ、MCTS a it であるが、パスごとの反復は PB-MCTS の比較を行わない。 0.64
Hence, for a a single of tree. したがって、単一の木のために。 0.72
search tire of subtree nodes, the In each its actions two are selected that compared other. サブツリーノードの検索タイヤでは、各アクション2が互いに比較して選択される。 0.75
For selection step, a modified version of the dueling to each the algorithm RUCB [22] is used to select actions. 選択ステップでは、各アルゴリズムのrucb[22]に対するデュエルの修正バージョンを使用してアクションを選択する。 0.71
this disadvantages with two main この2つの主な欠点は 0.66
recently over to approach: 最近まで アプローチ: 0.65
There are introstates. another そこ は 内向者。 もう一つ 0.56
realizavanilla needed an encan be bandit realizavanillaはencan be banditを必要とした 0.65
1. 2. transitivity No a first actions, MCTS needs have to only 10 iterations used. 1. 2. 推移性 最初のアクションがないため、MCTSは10回しか使用しなければなりません。 0.76
Given ten is has In the action each approach, preference-based each of action. 与えられた10は、各アプローチに作用し、各アクションに選好に基づく。 0.68
of estimation quality be to can estimation complete first until action compared with done. 見積もりの質は、最初に完了するまでに完了を推定できる。 0.55
be a other each (10· 9)/2 = 45 iterations, in the number effort the i.e., in general is quadratic These are of actions. 互いに (10·9)/2 = 45 の繰り返しで、つまり、一般には2次的である。
訳抜け防止モード: 10 · 9)/2 = 45 反復である。 in the number effort, i.e., general in general is quadratic これらはアクションである。
0.73
A binary subtree trajectory. バイナリサブツリーの軌道。 0.67
is needed to learn on each node of the currently best Instead 2n − 1 2n−1 of of subtree the vailla MCTS, length n for and nodes consists of path a PB-MCTS’s blowup causing only search of exponential of trajectories instead one, an tree. 現在のベストの各ノードについて学ぶために必要であり、代わりに、vailla MCTSのサブツリーの2n − 1 2n−1、長さn、ノードはPB-MCTSの爆発経路で構成され、代わりに木である軌道の指数の探索のみを引き起こす。 0.75
recomputing available use optimal of not make does that believe Hence, we PB-MCTS information transitivity sources, peron lost, is and a global perspective, local since on a need by undermined tree desired for search is the asymmetric spective, the growth of the a non-transitive domain, PB-MCTS will selecting a binary tree. したがって、私たちはPB-MCTS情報伝達源、ペロンは、検索のために望まれる弱弱木による必要性が非対称的スペクティブであるので、ローカルである、PB-MCTS情報伝達源は、二分木を選択すると信じない最適な使用を再計算します。 0.67
Note that even in the case of policy, illustrated nevertheless obtain a transitive as in Figure 1, where the circular preferand C can actions A, B, structure. ポリシーの場合でさえ、図1のように推移的な結果が得られることに注意せよ、C は A, B, 構造を作用させることができる。 0.65
tree resulting in the reflected not be between ences 縁の間にない反射をもたらす木 0.62
英語(論文から抽出)日本語訳スコア
Ordinal Monte Carlo Tree Search 3 Ordinal Algorithms In this setting モンテカルロ ツリー 探索 3 順序アルゴリズムをこの設定で。 0.65
section we and one 私たちと1のセクション 0.64
introduce for novel ordinal MCTS algorithm for markov decision マルコフ決定のための新しい順序mctsアルゴリズムの紹介 0.75
algorithms, ordinal アルゴリズムや Ordinal 0.57
novel three two 7 the multi-armed processes. 小説 3 二 7 マルチアームのプロセス。 0.74
bandit 3.1 Borda Bandit for the following the algorithm O-UCB is Our first bandit ordinal all store idea paper. bandit 3.1 Borda Bandit for the following the algorithm O-UCB is Our first bandit Ordinal all store idea paper。 0.87
The main this of contribution evaluate how good an action is depending on how probably it is arm is per seen better random one a of the of those than other in more detail. 貢献のメインのこの方法は、アクションがどれだけ良いかを評価するもので、より詳細には、armが、それらのうちの1つがよりランダムに見えているかによって評価される。 0.58
describe this idea base to is このアイデアを ベースは 0.55
algorithms and a very core per values reward and action reward that a random ordinal actions. アルゴリズムと非常にコアなper値は、ランダムな順序アクションに対する報酬とアクション報酬です。 0.73
In the following we Score is 以下に示す。 スコアは 0.52
The Borda 3.1.1 The Borda score based has its origins in voting on Borda theory [3]. Borda 3.1.1 ボルダのスコアベースは、ボルダ理論に関する投票に起源がある[3]。 0.67
count which the probability of winning against Essentially, case, In our random competitor. 本質的には、我々のランダムな競争相手において、勝つ確率をカウントする。 0.73
it a estimates (cid:54)= a available (cid:88) other action a to win is probability the of action (with tie against any B(a) correction): Pr(a (cid:31) b) 1 |A| − 1 b∈A\{a} a = (cid:54)= a available (cid:88) other action a to win is probability the action (with tie against any B(a) correct): Pr(a (cid:31) b) 1 |A| − 1 b∂A\{a} 0.92
B(a) = the B(a) = はあ? 0.60
b where Pr(a (cid:31) b) = Pr(Xa > Xb) + 1/2 Pr(Xa = Xb) arm i. b どこに Pr(a (cid:31) b) = Pr(Xa > Xb) + 1/2 Pr(Xa = Xb) arm i。 0.83
The ordinal rewards for responsible for sampling the and Xi is the random variable empiriestimated be but unknown is and Pr(Xa = Xb) for Pr(Xa > Xb) value true can receives arms picks one a direct and and two PB-MCTS, bandits dueling cally. Xi と Xi をサンプリングする責任を負う順序的報酬は、不詳であるが、Pr(Xa > Xb) の値 true の Pr(Xa = Xb) は、直接と2つの PB-MCTS のバンドレートデュエルを受信することができる。
訳抜け防止モード: と Xi をサンプリングする責任を負う順序的報酬は、推定される確率変数 be であるが、不明である。 and Pr(Xa = Xb ) for Pr(Xa > Xb ) value true can receive arms picks one a direct そして、PB - MCTS, bandits dueling cally。
0.86
In or aj ai availassuming approach by In this paper, we take a different sample for Pr(Xai > Xaj ). In or aj ai availassuming approach by this paper, we take a different sample for Pr(Xai > Xaj 。 0.72
a ∈ A, we per ability of ordinal rewards arm. a ∈ a, we per ability of ordinal rewards arm. 0.82
For each available action store the empirical ˆfa ˆFa and the cumulative density function empirical density function all backpropagated of can estimate Pr(Xa (cid:31) Xb)[19]: o ∈ O. 利用可能な各アクションストアに対して、経験的シュファ・シュファと、すべてのバックプロパゲートされた累積密度関数は、Pr(Xa (cid:31) Xb)[19]: o ∈ O を推定できる。 0.72
Given ordinal rewards those functions, we (cid:90) ˆB(a (cid:31) b) Pr[Xa < o] ˆfb(o) + 1/2 Pr[Xa = o] ˆfb(o)do |O|(cid:88) = ˆFa(on−1) + 2 i=2 順序がこれらの関数に報酬を与えると、(cid:90) sb(a (cid:31) b) pr[xa < o] sfb(o) + 1/2 pr[xa = o] sfb(o)do |o|(cid:88) = sfa(on−1) + 2 i=2 となる。 0.72
ˆFa(on) (4) ~Fa(on) (4) 0.84
= To wrap it up play arm to = 腕を巻くように巻く 0.65
which there uses つまり 用途があります 0.60
are two different a ∗ a 2つの異なるaです ∗ a 0.77
ˆB(a) + 2C = max a∈A differences to exploitation B(a) + 2C = max a・A 利用の違い 0.76
. 2 ln n n(a) implementation: of and . 2 ln n(a) の実装: 0.71
instead (5) The updating 代わりに (5) 更新 0.68
selection of running a 3.1.2 Algorithm comparison In play: arm to the ランニングaの選択 3.1.2 アルゴリズムの比較 プレイ:arm to the 0.66
to UCB, O-UCB uses UCB への O-UCB の使用 0.71
the Borda an exploitation term to ボルダ アン 利用 用語 0.46
choose ˆfb(on) (cid:115) ˆB as score the UCB ˆB; term: 選ぶ ^fb(on) (cid:115) ^ B as score the UCB ^ B; term: 0.74
英語(論文から抽出)日本語訳スコア
8 average present Tobias Joppen, ˆfa ˆFa according here action, and gets updated to the new ordinal regret on the for this choice of in bandit actions algorithms: (cid:0) ln n (cid:1)) where A− is is at most O((cid:80) Theorem 1 all K > 1 and O > 1, the expected regret after any an ordinal bandit using (5) i∈A− ∆i arms. 8 平均的存在 トビアス・ホッペン(Tobias Joppen)は、ここでの行動に従い、A− がほとんどの O((cid:80) 理論 1 のすべての K > 1 と O > 1 である場合、(cid:0) ln n (cid:1)) ここで、包帯作用アルゴリズムのこの選択のための新しい順序の後悔に更新される。
訳抜け防止モード: 8 平均的存在 トビアス・ジョッペン(Tobias Joppen)、シュファ・イファ(英語版)は、ここでの行動に従って、バンドイット作用のアルゴリズムにおけるこの選択に対する新しい規則的後悔に更新される: (cid:0 ) ln n ( cid:1 ) ) ここで A− は O((cid:80 ) Theorem 1 all K > 1 である。 and O > 1, expected regret after any ordinal bandit using (5 ) i∂A− .i arms 。
0.77
per bounds For per‐bound のために 0.58
Johannes F¨urnkranz ヨハネス・f・シュルンクランツ 0.25
reward. We number n of plays of the set of non optimal 報酬だ 私たち 最適でない集合の遊びの数n 0.62
Proof See appendix.1 証明 参照 appendix.1 0.61
3.2 Hierarchical Borda Bandit 3.2階層ボルダバンド 0.77
arms most Borda The favour Bandit O-UCB will to that play arm, which the beats other often In often. 腕 ほとんどのボルダ 好意的なBandit O-UCBは、そのプレイアームにします。
訳抜け防止モード: arms most Borda 好きなBandit O - UCBは、そのプレーアームにします。 ビートは、しばしばInを打つ。
0.74
of two simple the most setting arms, O-UCB will arm that more choose the between direct wins arm, with duels other the independent how difference the of much or play choose one setting where lottery is. 最も単純な2つの腕のうち、O-UCBは、直接の勝敗の両腕をより選択するアームであり、他のデュエルは、どのくらいの差があるか、あるいは、宝くじがある場所を1つ選ぶ。
訳抜け防止モード: 最も単純な2つの腕のうち、O-UCBはより直接の勝利の腕を選ぶ。 他のデュエルと独立して 多くを差すか どちらかを選ぶか 宝くじがどこにあるか設定する
0.74
the play, O-UCB to a outcomes not to can In above lottery the of if play choose Same for 50%. プレイは、O-UCBは、プレイが50%のために同じを選択する場合の宝くじでできない結果に。 0.77
winning will to chances the only are the medicine treatment: If you can choose between no treatment or treatment, O-UCB will choose treatment if the treatment was successful in more than 50% of the cases. チャンスへの勝利の意志は唯一の薬の処置です:処置か処置を選べばO-UCBは処置が場合の50%以上で成功したら処置を選びます。
訳抜け防止モード: チャンスへの勝利の意志は唯一の薬の処置です:処置か処置のどちらかを選ぶことができれば。 O - UCBは治療を選択します。 治療は 症例の50%以上で成功しました
0.70
Having is understandable since in 49% would be fine for O-UCB, what people die from the treatment that argue reason is there and distance measure for O-UCB to no is removed every death is treatment. 49%でO-UCBには問題ないので、その理由を主張する治療で人が死ぬこと、O-UCBからノーへの距離測定が毎回削除されるのは治療です。 0.80
But a worse define some distance, than it might be desirable to notion of algorithm Hierarchical like death is much worse than everything else. しかし、死のようなアルゴリズム階層の概念が、他のものよりもずっと悪いというよりも、ある程度の距離を定義する方が望ましいかもしれない。
訳抜け防止モード: 距離を定義するよりも 死のようなアルゴリズム階層の概念が望ましいかもしれません 他のものよりもずっと悪いのです
0.75
The following bandit UCB(OH-UCB) Ordinal thus and preferences hierarchical define to parameters provides different distance measures. 以下の帯域 UCB(OH-UCB) 規則と階層的パラメータの定義は異なる距離測度を提供する。 0.74
good (¯z, H), where by parameterized A OH-UCB is tuple a is value a to critical check for ¯z P(O)d ∈ of hierarchy significance d-sized (needed later), and a ordinal where values H P(O) P(O) multiple ∈ hierarchy level each refers of O. the to power In set elements h O × O maps ∈ of O to elements function Mh The or selected be of O can all their not. よし パラメータ化された A OH-UCB がタプル a であるとき、 OH-UCB は、階層的重要性 d の大きさ (後述) の A のクリティカルチェックに対する値 a であり、 H P(O) P(O) 多重 ∈ 階層レベルがそれぞれ O を参照する順序 a であり、 集合元 h O × O において、O の ∈ を要素関数 Mh に写す。 0.65
in O which element case selected is in bigger next element selected or, in no bigger of h of O. 選択された要素ケースが選択されたより大きな次の要素であるか、またはOのhの大きい要素がない場合。 0.70
The existing, the highest element selected elements now define a notion of distance: if Mh(o) = Mh(o(cid:48)), or Two elements o and o(cid:48) are close-by in a hierarchy h, in other words there is no selected element between o and o(cid:48) are close by if in h. The main idea of OH-UCB perceives each agent ah is the usage of one O-UCB agent per hierarchy h, where an ordinal reward signal as Mh(o). 既存の、最も高い要素選択要素は距離の概念を定義している: もし Mh(o) = Mh(o(cid:48)) あるいは 2つの要素 o と o(cid:48) が階層 h に近接しているなら、すなわち o と o(cid:48) の間に選択された要素が h に近づかない。
訳抜け防止モード: mh(o ) = mh(o(cid:48 ) ) ) である。 あるいは2つの要素 o と o(cid:48 ) は、階層 h において近い。 言い換えると、o と o(cid:48 ) の間の選択された要素が h に近くなることはない。 oh - ucb の主な考え方は、それぞれのエージェント ah が階層 h に対して 1 つの o - ucb エージェントを使用することである。 ここで順序報酬信号は mh(o ) である。
0.79
o ∈ going in an iterative manner done Selecting an arm a A is from the first to i 1 = ¯A = A. o ∈ は反復的に行う A の腕を選択すると、最初の 1 から i 1 = φA = A になります。 0.81
The arms possible all initialized with valid i = d. The hierarchy last is arms of set ∈ ¯A of the identify agent current valid action to best used is of hierarchy all arms ai hi ˆa ∈ ¯A \ {ai} each b(a)). 最後の階層は、識別エージェントの現在の有効なアクションである set ∈ a の arm で、最もよく使われるのは、階層的階層的すべての arm ai hi s a ∈ s a \ {ai} each b(a)) である。 0.72
Now, valid the one that maximizes action tested (picking other is whether ai is significant better than ˆa using as the critical value in a Mann-Whitney U test ¯z between those two arms when ignoring the exploration trade off: Having ni and ˆn being the can and of of amount arms derived be and for the Mann-Whitney U value ˆa, plays ai ai ˆa ˆB(ai (cid:31) ˆa): Uai = ˆB(ai (cid:31) ˆa)· ni ˆn and Uˆa = ˆB(ˆa (cid:31) ai)· ni ˆn [17]. マン=ホイットニー U テストにおいて、探検貿易を無視するときに、この2つのアーム間の重要な値として、ai が .a よりも有意な値であるかどうかを検証する: ni と .n が導出される量の武器の缶であり、また .a に対して、ai ai ai は .B(ai (cid:31) .a): Uai = .B(ai (cid:31) .a)· ni .n と U.a = .B(scid:31) ai)· ni .n [17] が成り立つ。 0.68
using the borda score and ni + ˆn > 20) U is samples For large enough (we use ni approximately > 3, ˆn > 3 ボルダスコアとNi + ^n > 20) U はサンプルです 十分に大きい場合(約 ni > 3, ^n > 3 を使用します)。 0.79
1 The proof can 1 あらすじ 証明 できる 0.65
be found at http://tiny.cc/OMCTS な 見つかった に http://tiny.cc/OMCTS 0.61
proof 証明 0.69
英語(論文から抽出)日本語訳スコア
Ordinal Monte Carlo Tree Search モンテカルロ ツリー検索します。 0.69
9 if ˆz > ˆz > 9 もし シュズ> シュズ> 0.74
can normally by testing できる 普通は テストすることで 0.65
distributed and hence we check for significance Uai − mUai σUai (cid:113) ni ˆn(ni+ˆn+1 Uai − ni ˆn 2 12 deviation of U[19,17]. 分散化することで Uai − mUai σUai (cid:113) ni .n(ni + n+1 Uai − ni .n 2 12 deviation of U[19,17]。 0.70
standard the mean where m and σ are arm ai, If a valid significant worse is that the it is arm ˆa best removed from the list of ¯A \ {ˆa}. m と σ が腕 ai である点の平均を基準にすると、有意な悪さは、腕 a が >A \ {>a} のリストから最も取り除かれることである。 0.72
¯A = is significance, tested arm has valid after If, valid been each arms the for ai the by OH-UCB. a = is important, test arm has valid after if, valid were each arms the for ai the by oh-ucb. (英語) 0.76
Otherwise, valid only played returned arm to is it arm left, the be as next left be to hierarchy i + 1 continues. そうでなければ、返却された腕だけが腕であり、次に左となるのは階層 i + 1 である。 0.72
If no hierarchy is (i = d), ai is returned as played, too. 階層が (i = d) でない場合、ai も再生として返されます。 0.76
After each of a arm a has been played and a ordinal reward o has been received, the bandits updated with Mh(o). 各アームaが演奏され、順序報酬oが受信された後、バンディットはmh(o)で更新される。 0.58
is ah insight give To further for used how OH-UCB could on inspect and motivation, we be dead the medicine treatment setting this problem for UCBin The main setting: is to avoid patients without defining hierarchy to level first use off. OH-UCBが検査と動機付けにどのように役立つかについて、私たちはこの問題をUBBinに設定した薬の治療法を枯渇させています。主な設定は、階層を定義しずに患者を避けることです。 0.61
clear a trade Here, we can the dead patients do exactly that by only this selecting Hence, bandit only perceives in h1. ここでの取引をクリアすれば、死んだ患者は、この選択だけで、バンディットはh1でしか知覚できないことを正確にできる。 0.61
not patient dead patient dead that actions those favor therefore and will and rewards: two this and seen samples the on patients. 患者が死んだ患者ではなく、患者が好意的に行動し、意志と報酬を与える。
訳抜け防止モード: 患者が死んだ患者が 患者に好意と意志と報酬を 与えるのではなく 患者さんのサンプルを見ました
0.71
Depending dead amount to the lead least of first ˆz significant more hierarchy filters out those arms with dead patients. 致死量によっては、最初のシュズよりも高い階層構造は、その腕を致命的な患者でフィルターする。 0.65
The second and last hierarchy would select the complete ordinal values to allow the most fine grained set optimization. 2番目の階層と最後の階層は、最もきめ細かい集合の最適化を可能にする完全な順序値を選択する。 0.69
of level and (6) レベルの そして (6) 0.78
of 3.3 Ordinal Monte Carlo Tree Search ですから 3.3 順序モンテカルロ木探索 0.64
derive introduce O-MCTS, policy. 派生 O-MCTS、ポリシーを導入。 0.49
We an inforusing O-UCB instead of 私たち。 代わりにO-UCBを注入する 0.62
an MCTS variant which only relies on ordinal ordinal MCTS algorithm by 順序順の MCTS アルゴリズムにのみ依存する MCTS 変種 0.61
In this section, we mation to learn a tree policy. このセクションでは、ツリーポリシーを学ぶためにマッピングします。 0.66
the UCB as tree Ordinal Monte Carlo search as conventional MCTS inlike proceeds (O-MCTS) ¯Xv(a) average score in (3) with the Borda value the replaces but 2.6, Section in troduced the state in tree. 木順序モンテカルロ探索としてのUCBは、従来のMCTSと同様の利益(O-MCTS) (3)の平均スコアであり、ボルダ値で置き換えられたが、2.6のセクションは、ツリーの状態を誘導した。 0.73
current the now defines v, where in node or node an of action a v Bv(a) our To other against performance to according rated arm is Here, arms. current the now define v, where node or node a of action a v Bv(a) our To other against performance to according rated arm is Here, arm。 0.76
the its mean each score has not been used in MCTS before, even tough several papers have knowledge, Borda algorithms dueling its use investigated in bandit [15,18,7]. MCTS では それぞれのスコアが 使われていない 厳しい論文もいくつかあります ボルダのアルゴリズムは バンディットで 調査されています [15,18,7] 0.71
To calculate the Borda score for each a node, backpropagated ordinal estimates action in O-MCTS stores values, and the probabilities Pv(a (cid:31) b) preference pairwise to necessary not it data. 各ノードのボルダスコアを計算するために、O-MCTSのバックプロパゲートオーディナル見積もりアクションは値を格納し、確率Pv(a (cid:31) b)は必要ではないデータにペアで設定します。 0.67
Hence, from these is iteration same the rollouts do multiple in as in PB-MCTS because current rollouts can be ones. したがって、これらはイテレーションからPB-MCTSのように複数のロールアウトを行う。 0.55
observed to previously compared directly (cid:31) estimated only Note that can be Pv(a other MCTS Hence, similar to variants, we node first. 以前に比較した直接比較(cid:31)は Pv(a other MCTS Hence, similar to variants, we node first と見積もっている。 0.73
a in actions least once. in action 少なくとも一度 0.66
non-visited action was by always visited at selecting 非訪問 行動は常に 選考に訪れた 0.64
if enforce each this 強制すれば それぞれが 0.57
b) b) 0.85
英語(論文から抽出)日本語訳スコア
10 Tobias Joppen, 10 トビアス Joppen 0.56
Johannes F¨urnkranz ヨハネス・f・シュルンクランツ 0.25
Fig. 2: Two フィギュア。 2:2 0.58
actions with different distributions. 行動する 分布が異なる。 0.71
3.4 Discussion Although changes the different characteristics. 3.4 議論は異なる特徴を変えるが。 0.72
very O-MCTS and MCTS. O-MCTSとMCTS。 0.77
to O-MCTS from MCTS this In section, we MCTSからO-MCTSへ。 0.43
comparably are highlight some 比較すると いくつか目立たせるのは 0.31
small, of the algorithms 小さい,小さい. アルゴリズム 0.69
the differences have between Bias Different cowardly, behaving for blamed been has previously, MCTS As mentioned in but will the risk some have that actions over actions unyielding but safe preferring by in shows its 2, which Figure consider example, As an rewards. 違いは その間に Bias different, behaving for blameed, MCTS had in said, but the risk have that actions over unielding but safe preferring by in shows its 2 which Figure consider an rewards. 0.64
higher in result run long possible of over actions two for values range a trajectory distribution the bottom row of quality with low deviation, whereas the other a mediocre has rewards. その結果、より長いオーバーアクションが可能 2 つの値では、低い偏差で品質のボトム行の軌道分布が変化し、もう1つは報酬が与えられる。 0.73
One action (circles) Since MCTS than the first one. 1つのアクション(円) MCTS が最初のアクションよりも大きい。 0.68
prioritizes the but (stars) is sometimes worse often better of often choose the average stars if the is above the only average circles, MCTS would like problem, this tackle ideas find many In action. しかし(星)は、しばしば平均的な星を選ぶよりも悪い場合があり、もしそれがmctsが望む唯一の平均的な円より上なら、この取り組みのアイデアは多くの効果がある。 0.68
safe, mediocre can one the to literature giving MIXMAX backups [10] or adding domain by a direct bonus to knowledge (e g , [12,8]). safe, mediocre は mixmax バックアップ [10] や,知識への直接的なボーナス ([12,8] など) によるドメインの追加を行う文学の1つです。 0.80
O-MCTS actions that should be executed takes a different point of view, by not comparing average values but by comparing how often stars are the better option than circles result, and vice versa. 実行すべきO-MCTSアクションは、平均値を比較するのではなく、星が円よりも良い選択肢となる頻度を比較することで、異なる視点で見ることができます。 0.78
As in 70% of action, which is preferable star the it would prefer a the right the games. アクションの70%と同様に、これは好ましくはスターであり、それはゲームの権利を好むでしょう。 0.78
note that given example can be inverted that MCTS takes the choice of O-MCTS. 例として、MCTSがO-MCTSを選択することは逆である。 0.66
Please instead such 代わりに そのような 0.48
Shaping Reward Hyperparameters and problem with MCTS (and a solve trying to When that hyperparameters tuned manually can be seen be rewards algorithms, as can too), other tweak you since beneficial can this be can algorithm work In desired. 報酬ハイパーパラメータの形成とMCTSの問題(そして、手動で調整されたハイパーパラメータが報酬アルゴリズムであるのを見ることができる場合の解決)は、有益なので、他の調整は、これはアルゴリズムが動作することができます。 0.71
theory as to make an there often is since it very painful can be parameters. しばしばそれを作る理論は、非常に苦痛がパラメータになりうるためである。 0.75
In practice algorithm with many the an overwhelming number of hyperparameters called is tuning process this way. 実際には、多くの過度パラメーターを持つアルゴリズムは、この方法でチューニング処理を行う。 0.70
This to tune reward is greedy a until rewards can one theory, In shape state the search able to problem. 報酬をチューニングするこの方法は、報酬が1つの理論、形状状態において問題となるまで欲張りである。 0.55
perform optimal on any rewards; hyperparameters the number of by only asking for ordinal reduces which is asking for a ranking of states instead of real numbers for each state. ハイパーパラメータは、各状態に対する実数ではなく、状態のランク付けを求める順序的還元のみを要求することで、その数を最大化する。 0.76
This limits borda method. これはbordaメソッドを制限します。 0.53
the using a fixed bias induces but reward shaping of the 固定バイアスを使用することは、報酬形成を誘発するが 0.65
shaping. O-MCTS like possibilities 形作る。 O-MCTSのような可能性 0.53
011/32/3( )( )( )lostplayingwonmin maxmin maxmin maxData(Avg)UCTOrdin al> : 30%> : 70%is bestis best 011/32/3( )( )( )lostplayingwonmin maxmin maxmin maxData(Avg)UCTOrdin al> : 30%> : 70%is bestis bestis bestis 0.98
英語(論文から抽出)日本語訳スコア
Ordinal Monte Carlo Tree Search モンテカルロ ツリー検索します。 0.69
11 ˆB is Computational Complexity na¨ıve excomputationally more computation a Clearly, of calculation of than MCTS’ to point out that once a pensive running average. 11 B は計算複雑性 na の演算により、MCTS よりも明確な計算を行い、一度のペンシブ実行平均を指摘します。 0.77
We hence want ˆB the it is is a new ordinal seen possible incrementally to update of value current reward instead it score again of calculating from scratch. したがって、私たちは、単にスクラッチから計算する代わりに、値の現在の報酬を更新するために、新たな順序付けが可能であることを望んでいます。 0.60
In our experiments, updating the Borda the (depending average the updating time times more needed size of O on than to 20 3 ˆB in show the only values and A). 実験では,ボルダを更新する(Oの更新時間の平均は,AとAの値を示す場合,203/B以上のOの更新時間である)。 0.64
These comparison do difference in updating updating to the running the complete algorithms (where the factor is much lower, mostly average, not depending on the runtime of the forward model). これらの比較は、完全なアルゴリズムの実行を更新する(この要因は、フォワードモデルのランタイムによらず、概して平均よりもはるかに低い)点で違いがある。 0.82
Experimental Setup 4 The experiments are split in two major sections: algorithms with baseline numerical compare ordinal rewards derive rewards ordinal and from there. 実験用セットアップ4 実験は2つの主要なセクションに分けられます。 0.31
Bandits Tree algorithms, we バンディットツリーのアルゴリズムは 0.63
and Search. first そして 検索。 まず 0.74
To define be able to numerical 定義する 数えることができる 0.70
inspect treatment setup, we 検査 治療 セットアップ、俺たち 0.68
Bandit Setup the bandit Bandit (複数形 Bandits) 0.61
4.1 paImagine problem from above: the medicine For In case of being alive, a continuous scale tients can be dead or alive after a medical treatment. 上述の4.1paImagine問題:医療 生きた状態では、連続的なスケールの傾向は、治療後に死んでも、生きたままでもよい。 0.71
the worst posthe treatment, while being dead is of wellbeing can differentiate the quality of death defining by score numerical a in be modeled outcome. 死後の最悪の治療は 予後が良くても 数値aを モデル化した結果によって 死の質を区別できる 0.68
This sible reward can of as a treatment with else (0, 1]. このsible rewardは、他の (0, 1) による治療として利用できる。 0.77
The everything in good as dead identify and aim is to a less 0 on purpose possible. 致命的な識別と目標のすべては、可能な限りゼロを目標としないことです。 0.69
This as look patients is defined to not for any dead-patient/wellbei ng preference trade-off. このような患者は、致命的/幸福的な優先的トレードオフを考慮しないよう定義されている。 0.46
There is a clear to minimize dead patients at and then maximize first be modeled can optimization this that to score. 死んだ患者を最小化し、最初にモデル化されることを最大化することは明らかです。 0.66
We want the wellbeing not emphasise as to is but be able of a numerical score a higher dimension. 私たちは、ウェルビーイングが強調されるのではなく、数値スコアをより高い次元にできることを望んでいます。 0.52
Hence UCB1 will not that find Furthermore, optimum but will able to maximize the expected numerical reward. したがって UCB1 はそれ以上に最適ではなく、期待される数値報酬を最大化することができる。 0.70
only be O-UCB and MultiSBM will also not directly minimize amount of death patients too, the average. O-UCBだけであり、MultiSBMはまた死亡患者、平均の量を直接最小にしません。 0.70
Neverthesince of the they will maximize in arms other the beats arm that the pull the wellbeing statements: First, OH-UCB can maximize can setup this less two main prove score while minimizing the amount of deaths without defining a numerical trade off between score and those targets second, O-UCB can optimize directly. 第一に、oh-ucbは、この2つの主要な証明スコアを最大化できる一方で、スコアとそれらのターゲットとの数値的なトレードオフを定義することなく、死の量を最小限に抑えることができる。
訳抜け防止モード: いずれにせよ、彼らは腕を最大化し、他の腕は鼓動する。 幸福な言葉を引いて 第一に、OH-UCBは、スコア間の数値的なトレードオフを定義することなく、死数の最小化を図りながら、この2つの主要な証明スコアを最大化することができる。 次に、O - UCBは直接最適化できる。
0.53
The latter optithe wellbeing convergence mization speed. 後者は、ウェルビーイング収束化速度を最適化する。 0.53
can be compared to UCBand MultiSBM in terms of parameter algorithms with all version parameterized use Notice c, bandit of a that we (compare Formula 2 which trades off exploration and exploitation and Formula 3). すべてのバージョンパラメータ化された使用通知c、aのバンドイット(探索と搾取をトレードオフするformula 2とformula 3)を持つパラメータアルゴリズムの観点から、ucband multisbmと比較することができる。 0.79
In our bandit setting, we have the four different treatments available (four actions): (a good but maybe killing treatment / 80% maximal wellbeing (r=1) A 20% death (r=0) treatment) 20% maximal wellbeing (r=0) A 80% death / (r=1) treatment (a and worse one treatment than the above) A no-treatment baseline (r=0.6) slightly increases that A treatment バンディットでは4つの異なる治療 (4つの作用) がある: (良いが、おそらく殺傷) / 80% 極度の幸福 (r=1) 20% 死亡 (r=0) 20% 極度の幸福 (r=0) 80% 死亡 / (r=1) 治療 (a とそれ以上の1つの治療) 非治療基準 (r=0.6) 治療はわずかに増加する。 0.78
of wellbeing (r=0.7) 幸福の (r=0.7) 0.51
risk – – – – Using this bandit, we test Each agent has 500 action pulls aged over 20 runs. リスク – – – このバンディットを使って、各エージェントが20回以上動作した500のアクションプルをテストします。 0.71
We repeat each experiment with the parameter c ∈ (0.1, 0.2, 0.4, 0.6, 0.8, 1, 1.2, 1.4, 1.6, 1.8, 2) of results best the compare and 各実験をパラメータ c ∈ (0.1, 0.2, 0.4, 0.6, 0.8, 1, 1.2, 1.4, 1.6, 1.8, 2) で繰り返す。 0.74
four different algorithms: O-UCB, OH-UCB, UCB and MultiSBM. O-UCB、OH-UCB、UBB、MultiSBMの4つのアルゴリズム。 0.67
averderive averderive 0.85
each experiment being agent. 各実験はエージェントです。 0.83
O-UCB, OH-UCB and MultiSBM can O-UCB、OH-UCBおよびMultiSBM缶 0.66
available each experiment, with それぞれ利用可能 実験して 0.70
patients level very 患者 レベル とても 0.78
of the per ですから はあ? パー 0.43
英語(論文から抽出)日本語訳スコア
12 Tobias Joppen, 12 トビアス Joppen 0.56
Johannes F¨urnkranz ヨハネス・f・シュルンクランツ 0.25
from the wellbeing preferences their Section 3.2, in described above. 上記のセクション3.2の幸福の好みから。 0.53
As described score dead for OH-UCB, are hierarchies two used define the first everything than is worse that to a (or else v = 0 << v > 0) full and values are considordinal hierarchy, where all second ered. OH-UCB のスコアデッドを記述したように、2 つの階層が最初の全てを定義しており、a (または他の v = 0 << v > 0) が完全であり、値がconsidordinal 階層であり、2 番目の階層はすべて ered であるより悪い。 0.66
Hence OH-UCB should be able lead to death and that do not to prioritize those actions as O-UCB would do, remaining actions the optimizes z critical the ˆz = 0.65 as too. したがって、OH-UCBは死に至ることができ、O-UCBが行うようにこれらのアクションを優先順位付けしないようにすべきであり、残りのアクションは z クリティカルな z = 0.65 である。 0.59
We use value significance in OH-UCB. OH-UCBでは値の意味を使用します。 0.50
to check for check (複数形 checks) 0.34
ties, In cases of to minimize dead patients. ネクタイ の場合 死亡患者を最小限に抑えます 0.47
Bandit Results 4.2 is used is target The average wellbeing score the shown over as a tie breaker. Bandit Results 4.2 がターゲット 平均ウェルビーイングスコアはネクタイブレーカーとして表示される。 0.73
First, we inspect Figure 3a, where the amount of dead patients is the only for time c parameters per the best that OH-UCBis seen, can clearly be algorithm. まず,oh-ucbisが見る最善の時間cパラメータに対して,死亡患者数が唯一の時間cパラメータである図3aを明らかにアルゴリズムとして検証する。 0.72
It since the of towards converges algorithm that surprise, deaths. それ以来、forwardはアルゴリズムを収束させ、驚き、死をもたらす。 0.54
This is to no low number a other algorithms maximize the wellbeing value directly. これは、他のアルゴリズムが直接ウェルビーイング値を最大化する低い数ではありません。 0.62
the c paramshown at Figure 3b for A plot time is showing the best wellbeing values per as UCB are eters that this score the can see, that O-UCB as well increased one best. 図 3b のプロットタイムの c パラムシャウトは、UTB の値が、このスコアが示すように、O-UCB の値が最善であることを示す。
訳抜け防止モード: 図3bのcparamshown for A plot timeは、UTBが示すように、最高の幸福な値を示している。 その O - UCB も 1 つの最善を増した。
0.66
Here needs to from pair learn since behind, bit the to maximize able of it a value. ここではペア学習から、その価値を最大化するためにビット化する必要があります。 0.70
MultiSBM is information between arm pairs as good as UCB or O-UCB actions and is not able to abstract feedback contrast single can do. MultiSBM は UCB や O-UCB のアクションと同様の腕のペア間の情報であり、シングルでできるフィードバックコントラストを抽象化することはできません。 0.67
In to MultiSBM, O-UCB is able to use a value of one arm and any other value can compare it to any other arm. MultiSBMでは、O-UCBは1つのアームの値を使用することができ、他のどの値も他のアームと比較することができる。 0.64
of the showing overview an present Lastly, Table parameter influence we by 1 in of and deaths displaying algorithm and per score average wellbeing the amount of paramec ≥ 0.2 Inspecting there is an interesting different between UCB and O-UCB shown: ter. 最後に、表パラメーターがアルゴリズムの1と1の死亡に影響し、スコア平均がパラメック以上0.2の量であるかどうかを調べる UCB と O-UCB の間に興味深い違いがある: ter。
訳抜け防止モード: 最後に, 表パラメータが1イン/死表示アルゴリズムに与える影響を概観する また、paramec ≥ 0.2 の検査量を平均的に評価すると、ucb と o - ucb の間には興味深い違いがある。
0.73
decrease O-UCB keeps the deaths at around 83 with a of wellbeing when inamount of creasing of amount score both, wellbeing that, UCB reduces to contrast In exploration. O-UCB の減少は、量点数の増大が両立しない場合の幸福感により、83 前後で死を保ち、UCB は探査において対照的に減少する。 0.74
deaths. and c r e t e m a r a P C 死だ そして c r e t e m a r a P C 0.75
B C U s h e t u a l e a D V 42.4 0.739 56 0.75 80.45 0.78 78.3 0.766 75.3 0.761 73.75 0.737 71.8 0.732 69.8 0.727 70.5 0.713 71.5 0.703 71.45 0.7 average wellbeing value and B C U s h e t u a l e a D V 42.4 0.739 56 0.75 80.45 0.78 78.3 0.766 75.3 0.761 73.75 0.737 71.8 0.732 69.8 0.727 70.5 0.713 71.5 0.703 71.45 0.7 0.58
0.1 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 0.1 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0 0.42
Table runs. 1: The テーブルが走る。 1: 0.64
B C UH O s h t a e D 2.6 2.4 4.6 4.75 7.6 12.8 16.6 20.55 25 29.85 33.3 of B C UH O s h t a e D 2.6 2.4 4.6 4.75 7.6 12.8 16.6 20.55 25 29.85 33.3 0.64
e u l a V 0.699 0.698 0.699 0.696 0.695 0.693 0.695 0.689 0.686 0.685 0.68 amount e u l a V 0.699 0.698 0.699 0.696 0.695 0.693 0.695 0.689 0.686 0.685 0.68 量 0.52
B C UO s h e t u a l e a V D 0.725 39.75 0.73 61.3 0.709 84.45 0.683 82.75 0.659 83.8 0.641 83.65 0.645 81.45 0.628 81.65 0.624 82.8 0.623 82.65 82.85 0.617 algorithm and b c uo s h e t u a l e a v d 0.725 39.75 0.73 61.3 0.709 84.45 0.683 82.75 0.659 83.8 0.641 83.65 0.645 81.45 0.628 81.65 0.624 82.8 0.623 82.85 0.617 アルゴリズム 0.56
e u l a V 0.737 0.754 0.784 0.776 0.773 0.755 0.753 0.74 0.729 0.722 0.714 per e u l a V 0.737 0.754 0.784 0.776 0.773 0.755 0.753 0.74 0.729 0.722 0.714 per 0.53
M B S i t l u M s h t a e D 55.15 67.15 67.4 72.1 82.1 89.3 87.25 95.85 97.25 98.6 100.85 parameter M B S i t l u M s h t a e D 55.15 67.15 67.4 72.1 82.1 89.3 87.25 95.85 97.25 98.6 100.85パラメータ 0.64
c deaths averaged over c 死 平均 Over 0.74
20 20 0.85
英語(論文から抽出)日本語訳スコア
Ordinal Monte Carlo Tree Search モンテカルロ ツリー検索します。 0.69
13 s t n e i t a P d a e D 13 s t n e i t a P d a e D 0.85
e u l a V d e t c e p x E e u l a V d e t c e p x E 0.85
60 40 20 0 60 40 20 0 0.85
0.8 0.7 0.6 0.8 0.7 0.6 0.59
0.5 MultiSBM c = 0.1 OH-MAB c = 0.2 O-MAB c = 0.1 UCB c = 0.1 0.5 MultiSBM c = 0.1 OH-MAB c = 0.2 O-MAB c = 0.1 UCB c = 0.1 0.64
0 100 200 300 0 100 200 300 0.85
400 500 Pulls 400 500 プル 0.75
(a) Data1 MultiSBM c = 0.2 OH-MAB c = 0.4 O-MAB c = 0.4 UCB c = 0.4 100 200 (a)データ1 MultiSBM c = 0.2 OH-MAB c = 0.4 O-MAB c = 0.4 UCB c = 0.4 100 200 0.83
0 Pulls (b) Data2 3: Bandit 0 プル (b)Data2 3: Bandit 0.77
results Fig. 300 結果 フィギュア。 300 0.68
400 500 4.3 400 500 4.3 0.76
Tree Search Setup described algorithms test We three the using the PB-MCTS) (MCTS, O-MCTS and framework [13]. ツリー検索の設定 説明アルゴリズムテスト PB-MCTS(MCTS、O-MCTS、フレームワーク[13]を使用して3つ。 0.74
As additional benchmarks we add MIX(GVGAI) General Video Game AI an MCTS variation 0.25) (Q parameter to MAX set as tackle to by [10] that was suggested [8,12]. 追加のベンチマークとしてMIX(GVGAI) General Video Game AIにMCTSの変分0.25(QパラメータをMAXに[10]のタックルとして追加します [8,12]。 0.77
GVGAI state of a the behavior, and YOLOBOT, cowardly has the art GVGAI agent games and video implemented variety of different a a unified agents with provides playing expensive is forward model this forward model. 動作のGVGAI状態とYOLOBOTは、芸術的なGVGAIエージェントゲームと、高価なプレイを行うための、様々な種類のビデオ実装されたエージェントを持ち、このフォワードモデルを提供する。 0.71
Using a using simulate moves to interface using simulate move to interface の使用 0.80
above 0.70
英語(論文から抽出)日本語訳スコア
14 Tobias Joppen, 14 トビアス Joppen 0.56
Johannes F¨urnkranz ヨハネス・f・シュルンクランツ 0.25
of use time. ですから 利用 時間だ 0.65
We forward model this to of number take simulations that so as calls a the lot independent it computation time, real In comparison to using the computational budget. 私たち これを数列にフォワードモデルにすると、計算予算を使うのと比べて、計算時間に多くの独立性があるようにシミュレーションを取り入れます。 0.70
is a data. effects hardware, logging such as side algorithm implementations, of specific and information Our are given following pieces provided the algorithms of by framework: actions: Available actions The Game score: The of the score to 1 or −1000 to 10000. result: Game the game: won, result of The action: Simulate The It is ject spawns. データです 影響ハードウェア、サイドアルゴリズム実装のようなロギング、具体的および情報 以下に挙げたピースは、フレームワークによるアルゴリズムを提供する。 アクション: 利用可能なアクション ゲームスコア: スコアの1ないし1000から10000まで。結果: game the game: win, result of the action: sim the it is ject spawns。 0.58
state given agent can perform in a state ∈ N. Depending the on game running. state given agent can be performed in a state ∈ N. depend the on game run. 0.91
e g , for eg、 for... 0.36
lost stochastic, forward model. 確率的を失った フォワードモデル。 0.49
enemy moves random ob- 敵の動き ランダムob- 0.73
the given from 0 ranges 与えられた 0から 範囲 0.76
access this to the アクセス これ へ はあ? 0.62
or or up since あるいは あるいは それ以来 0.71
4.3.1 Heuristic Monte Carlo Tree Search space with 5 actions and to 2000 turns. 4.3.1 Heuristic Monte Carlo Tree Search space with 5 action and to 2000 Turn 0.93
Using games The search large a have in GVGAI of amount time, up 2000 moves to vanilla MCTS, use rollout may a substantial one have rollouts estimate, many a good achieve state. ゲームの使用 量時間のGVGAIで大きな検索は、2000がバニラMCTSに移動し、ロールアウトの使用は、かなりの1がロールアウト推定、多くの良い達成状態を持っている可能性があります。
訳抜け防止モード: ゲームを使用する 検索の規模はGVGAIの時間である。 バニラMCTSへの2000年移動 ロールアウトの使用は 実質的な ロールアウト推定になるかもしれない 多くは達成できる状態です
0.74
To terminal a reach to be made have to early using at states, non-terminal a to common simulated. 到達点を終端させるためには、非終点 a to common をシミュレートした状態で早期に使用しなければならない。 0.62
Hence to rollouts be stop it is of variation this use states. したがって、ロールアウトを停止することは、この使用状態の変化です。 0.61
experiments, we In our heuristic to estimate the value of these rollouts RL as an additional parameter. 実験では、これらのロールアウトRLの値を追加パラメータとして見積もっている。 0.76
The heuristic the maximal MCTS, adding length for terminal reward (i.e., it value at non-terminal nodes is computed in the same way the as to game). 最大値MCTSのヒューリスティックは、終端報酬(すなわち、非終端ノードの値がゲームと同じ方法で計算される)に長さを加える。
訳抜け防止モード: 最大MCTS(Huristic the maximal MCTS) 終端報酬(すなわち、非終端ノードで値)に対する長さを追加する ゲームと同じように計算されます。
0.77
the of state this at score the corresponds essentially to R 4.3.2 Mapping Rewards one on dimensions: has function The hand, the two objective the agent the needs to win the agent hand, other on the achieving by game a certain goal, also needs to maximize its than scores. 得点におけるこの条件は、本質的に r 4.3.2 マッピングに対応するもので、手が機能し、エージェントがエージェントの手に勝つ必要がある2つの目的を持つ。
訳抜け防止モード: 点数におけるこの状態 基本的には R 4.3.2 に対応する 次元上の逆写像 : has function の手, エージェントが必要とする2つの目的 エージェント・ハンドを勝ち取るために ゲームによって達成する他の目的も必要です スコアを最大化することです
0.83
getting higher score. Winning is more important being ∈ R or better ∈ rewards Since MCTS needs its even [0, 1], the two-dimensional dimension, case target ease and comparison for in be mapped to needs our one to function [0, 1]. 高得点を得る。 勝利は ∈ R またはより良い ∈ 報酬であるより重要であるので MCTS は、その偶数 [0, 1] を必要とするので、2次元次元、ケースターゲットの容易さと比較は、私たちが機能する必要性 [0, 1] にマップされます。 0.71
Knowing parameters tuning of the score into the possible scores of a game, can be normalized by rnorm = (r−rmin)/(rmax−rmin) with rmax and rmin being the highest score. スコアをゲームの可能なスコアにチューニングするパラメータを知ることは、rmaxとrminが最も高いスコアであるrnorm = (r−rmin)/(rmax−rmin)によって正規化することができる。
訳抜け防止モード: ゲームの可能なスコアにスコアをチューニングするパラメータを知ること rnorm = ( r−rmin)/(rmax−rmin ) で正規化でき、rmax と rmin が最高点となる。
0.82
and lowest possible lost ≺ playing ≺ won which must For modeling hold split the relation 0, axis of Figure also the 2): equal parts into three interval the [0, 1] lost if playing if 1 3 , if won. そして、最小限の可算失点 ^ が勝利し、モデリングのためには関係 ^0 を分割しなければならない。 図 2 の軸も等しい部分は、もし 1 3 , if win をプレイすれば、[0, 1] を3つの間隔に分割する。
訳抜け防止モード: そして、最小限の損失 > を再生するためには、モデリングホールドが関係を割る必要がある。 図の軸もまた 2 ) : 3 つの間隔に等しい部分 [0, 1 ] 負けた場合, 1 3 が勝てば負けた。
0.75
2 3 , possibilities of many one only This obvious and an is it but [0, 1], the to map rewards to approach. 2 3 , 多くの 1 つだけの可能性 この明らかかつ an ですが [0, 1], 近づきの報酬をマップします。 0.69
Naturally, straight-forward this use techniques, which the MCTS the results for can probably results and their reward mapping is used, reward, will change when a different the main points of our work is to show that be improved by shaping the reward. 当然のことながら、この使い方は、結果のMCTSがおそらく結果をもたらし、報酬マッピングが使用され、報酬は、私たちの仕事の主なポイントは、報酬を形成することによって改善されることを示すことです。 0.68
In fact, one of these because necessary shaping reward such is no for PB-MCTS) as for O-MCTS (as well not the mapped do numerical on rely algorithms the information. 実際、これらのうちの1つは、O-MCTS(マップされた数値が情報に依存するアルゴリズムに依存していない)のように、必要なシェイピング報酬がPB-MCTSにはないからです。 0.56
linear In fact, for them, a (cid:31) b ⇔ rmcts(a) > rmcts(b) function with is equivalent to the preferences induced by feedback. 実際、それらに対して (cid:31) b > rmcts(a) > rmcts(b) 関数は、フィードバックによって引き起こされる選好と等価である。 0.74
two-dimensional the two‐dimensional 0.84
rnorm 3 states, we Rnorm 3 州、私たち、 0.69
rmcts = (cf. rmcts = (cf。 0.81
for (7) all ですから (7) 全部 0.70
is + は + 0.80
英語(論文から抽出)日本語訳スコア
Ordinal Monte Carlo Tree Search モンテカルロ ツリー検索します。 0.69
15 – – Selected Games 15 – – 選抜ゲーム 0.78
4.3.3 them is not GVGAI provides users with many games. 4.3.3 は gvgai ではない。 0.55
Doing an evaluation on all of feasible. 実現可能なすべての評価を行う。 0.77
since the tested algorithms some results would exhibit erratic behavior, Furthermore, (except true example, For games. テストされたアルゴリズムは、いくつかの結果は、さらに、(真の例を除いて、ゲーム。 0.70
the of some solving for not for YOLOBOT) rewards suitable are the game. YOLOBOTのためにないためのいくつかの解決の)適した報酬はゲームです。 0.74
to be guided in some way to reliably solve agent has and the often are very sparse, a this For the reason, we manually played all games and selected variety of interesting, too not characteristics, which we and complex games with different to be solvable believed algorithms: the for tested – sword. エージェントが持っていることを確実に解決するために何らかの方法で誘導され、しばしば非常に疎い、この理由のために、我々は手動ですべてのゲームをプレイし、非常に興味深い、あまりにもない特性の様々なを選択しました。
訳抜け防止モード: エージェントが持つものを確実に解く何らかの方法で導かれること、そしてしばしば非常に疎いこと。 このために私たちは手作業で全てのゲームをしました 興味をそそられるような特徴を 選びました we and complex games with different to be solvable believed algorithms: the for tested – sword. (英語)
0.78
It wins by finding the can hunt monsters agent Zelda: The and slay them with its the key and taking door. 缶狩りのエージェントであるゼルダ(Zelda: The)を見つけ、その鍵で彼らをスレイし、ドアを取ることで勝利する。 0.64
– from the agent. Once animal an flee catch Chase: The agent has all to animals which this way, agent If angry gets it finds caught a caught get the agent. エージェントから。 一度動物が逃走するチェイス: エージェントは動物に全てをこの方法で持つが、エージェントが怒ると、捕まった人がエージェントを手に入れる。 0.58
the chases and one, the game is lost. 追跡と1、ゲームは失われます。 0.55
collect mushrooms which Whackamole: The agent can spawn randomly. Whackamole:エージェントはランダムに発生することができますキノコを集めます。 0.60
A cat helps it 2000 time and in doing so. 猫は2000時間、それを行うのを助けます。 0.83
The game is won after or lost if agent collide. エージェントが衝突した場合、ゲームは勝利するか負ける。 0.70
cat steps can dig through sand to a door Boulderchase: The collected it has after that opens agent It may be sand turning sand into diamonds. 猫の階段は、ドアボルダーチェーゼに砂を掘ることができます:それがエージェントを開く後に収集された砂は、砂をダイヤモンドに変える砂かもしれません。
訳抜け防止モード: 猫のステップは、砂を掘り抜けてドアのボルダーチェスへ 開封後採取した砂は、砂をダイヤモンドに変える砂かもしれない。
0.79
through the chase ten diamonds. 10個のダイヤモンドを追いかけます 0.71
Monsters it hard game. ハードゲームをモンスターします。 0.64
this a MCTS agent for very to solve collect specific any time by taking a at can win the game Surround: The agent action, or points by moving while a snake-like trail. エージェントアクション、またはヘビのようなトレイル中に移動することによってポイント:これは、アトを取ることによって特定の時間を収集するために非常にMCTSエージェントは、ゲームサラウンドを獲得することができます。
訳抜け防止モード: このMCTSエージェントは いつでも特定の収集を can (複数形 cans) ゲームスラウンドで勝つ:エージェントアクション、または、蛇がトレイルのように動きながらポイント。
0.71
A moving also enemy leaves a trail. 敵の移動も跡を残している。 0.67
leaving collide with shall not agent The trails. 衝突を残さなければならない エージェント トレイル。 0.56
by can It a hunted is submarine, fish shoot shark. by 狩猟は潜水艦で、魚はサメを撃ちます。 0.72
which a The controls Jaws: agent 20 giving points and leaving an item behind. エージェント20はポイントを与え、アイテムを後ろに残します。 0.42
Once items are collected, a collision with the shark gives a large number of points, otherwise it loses the game. アイテムが収集されると、サメとの衝突によって多数のポイントが与えられ、さもなければゲームに負ける。 0.77
Colliding with fish specific positions. 魚の特定の位置と衝突。 0.64
6 randomly on game. ゲームでランダムに6。 0.86
The fish loses always spawn the right only move agent The Aliens: come upwards. 魚はいつも右のみ移動エージェントザエイリアンを産出:上向きに来る。 0.68
Aliens shoot from left to can and increasing flying from top to bottom throwing rocks the agent. エイリアンは左から缶に撃ち、上から下まで空を飛び、エージェントは岩を投げる。 0.69
on For score, the agent can shoot the aliens or shoot disappearing blocks. スコアは、エージェントがエイリアンを撃ったり、消えるブロックを撃ったりできる。 0.64
that on depends algorithms by performed be of The comthe iterations number the can tested putational budget 250, algorithms with 500, the forward model. イテレーション番号 can test putational budget 250, algorithms with 500, the forward model。
訳抜け防止モード: そのアルゴリズムは、実行されたアルゴリズムに依存します。 繰り返しは、テスト可能な配置予算250です。 500のアルゴリズム フォワードモデル
0.72
We of calls to the budget). 予算の呼び出しの私たち)。 0.63
Thus, experimented total, we in and forward model uses (later called 1000 10000 (7 domains × 4 different with 28 problem settings budgets). したがって、合計で実験し、私たちはモデルの使用(後に1000 10000(28の問題設定予算で7ドメイン×4異なる)を転送します。 0.72
the – – – Tuning Algorithms and Experiments 4.3.4 trade-off common, in and algorithms have two parameters All MCTS the length RL. はあ? – – – チューニングアルゴリズムと実験 4.3.4 トレードオフ共通, in, and algorithm has two parameters All MCTS the length RL。 0.74
For RL we tested 4 different values: 5, 10, 25 and 50, and for C we tested rollout algorithm. RLでは5、10、25、50の4つの異なる値をテストし、Cではロールアウトアルゴリズムをテストしました。 0.66
are 36 configurations per In total, size 0.25. from 0 to 2 in steps of these 9 values times. この9つの値のステップの0から2までの合計0.25.は36構成である。 0.79
Overall, have experiment variance, we algorithms with repeated each To reduce 4 40 in 28 40 times on problems, played for configurations were 36 run games resulting 161280 tuning. 総じて、実験のばらつきがあり、各アルゴリズムは、問題で2840回に440を削減し、構成では36のランゲームで161280のチューニングがなされた。 0.71
competitive GVGAI YOLOBOT, to the Additionally, we highly a algorithms compare that won several challenges agent [8,12]. 競争力のあるGVGAI YOLOBOT, さらには,いくつかの課題[8,12]で勝利したアルゴリズムを比較します。 0.67
YOLOBOT is able to solve games none of the other that YOLOBOT algorithms can solve. YOLOBOTは、YOLOBOTアルゴリズムが解決できない他のゲームを解決することができます。 0.87
Note is designed and tuned to act within 20ms five a time limit. メモは、制限時間20ms以内に動作するように設計および調整されています。 0.53
Scaling and even increasing budget might lead to worse and unexpected behavior. スケールと予算の増大は、悪化と予期せぬ行動を引き起こす可能性がある。 0.62
each strength. For YOLOBOT of interpretability sake for added is it Still それぞれの強さ YOLOBOTの場合、追加の可読性はなおあるか? 0.73
comparison exploration and of 比較 探究 そして ですから 0.66
C C 0.85
英語(論文から抽出)日本語訳スコア
16 Tobias Joppen, 16 トビアス Joppen 0.56
Johannes F¨urnkranz ヨハネス・f・シュルンクランツ 0.25
or games leads to times, which is played the problems of 1120 162400 28 total.2 games in algorithms perform on the probdifferent how the interested well We are mainly show the performance of the an answer, we tuning per problem. アルゴリズムの1120 162400 28の合計.2のゲームの問題を再生されている時間につながるまたはゲームは、どのように興味深く、我々は主に答えのパフォーマンスを示すか、我々は問題ごとにチューニングしています。 0.81
To give lems, given optimal do score. レムを与えるには最適な do スコアが与えられる。 0.44
We average obtained and of wins problem in algorithms Friedpercentage per a mann test test to test posthoc Wilcoxon ranks data with a average on of those signed rank for significance [5]. マン試験1回あたりのフリードパーセンテージのアルゴリズムにおける平均値と勝利問題を用いて,ウィルコクソンのランクデータを有意値の平均値で評価した [5]。 0.76
Additionally, we show and discuss the performance of all parameter configurations. さらに、すべてのパラメータ構成のパフォーマンスを表示および議論します。 0.82
additional 40 on Tree Search Results さらに 40歳 ツリー検索結果 0.64
4.4 the best win rate and the corresponding average score of each algorithm, averTable 2 shows the best values In each row, settings. 4.4 最高の勝利率と対応する各アルゴリズムの平均スコア、可逆性2は各行の最高の値、設定を示す。 0.78
the 36 different parameter for each of aged over 40 runs algorithms of a and in the win score average shown are bold, and rate for is the the ranking shown are ranks the in last line. 40歳以上の各年齢ごとの36の異なるパラメータは、aのアルゴリズムを実行し、示される勝利スコアの平均は太字で、示されるランキングは最後の行のランクである。
訳抜け防止モード: 40歳以上のそれぞれ36の異なるパラメータが aのアルゴリズムを実行します そして 表示された勝点平均は 大胆で 表示された順位は 最後の列にランクインしています
0.78
We computed. The resulting use a Friedmann test average rank test as an indication for and a posthoc Wilcoxon signed significant differences in persignificance level of 99%) are shown in Figure 4a. 計算した。 その結果、フリードマンテスト平均ランクテストを指標として使用し、図4aに示すように、ポストホックウィルコクソンがパーシグニッションレベル99%で有意な差にサインした)。 0.64
(with a the latter results of formance. (後者は定式化の結果である。) 0.71
The (a) All あらすじ (a)すべて 0.58
game runs. Data ゲーム 走れ データ 0.65
from Table 2 (b) Only won a Wilcoxon テーブルから 2 (b)ウィルコクソンに勝ったのみ 0.77
game signed runs rank ゲームサイン ランランク 0.59
of test with ですから テスト と 0.64
α = 0.01. Directly α = 0.01. 直接 0.77
connected connected~ 0.74
4: and ranks Average Fig. 4: そして平均図をランク付けします。 0.69
result significantly. 結果がかなり大きい。 0.55
differ not algorithms do アルゴリズムが違うのは 0.77
the rank of 1.6 and a We can see that O-MCTS performed best with an average significantly look closer take us allows PB-MCTS. はあ? ランク1.6とa O-MCTSは、平均的に近づき、PB-MCTSを可能にします。 0.49
Table and better a 2 than MCTS performance on to and Whackamole Surround, Aliens, as such to win, that games the easy are For domains. table and better a 2 than mcts performance on to and whackamole surround, aliens, as to to win, the game the easy is for domain. (英語) 0.75
a In Chase, score. a in chase、スコア。 0.60
higher by winning with O-MCTS PB-MCTS a deadly beats MCTS and but more deterministic game, O-MCTS is able to achieve higher win rate. O-MCTS PB-MCTSの勝利はMCTSを圧倒するが、O-MCTSはより高い勝利率を達成することができる。 0.79
and a In deadly 2 https://github.com/M uffty/OMCTS Appendix at available are Results in deadly 2 https://github.com/M uffty/OMCTS Appendix at available 0.77
英語(論文から抽出)日本語訳スコア
Ordinal Monte Carlo Tree Search モンテカルロ ツリー検索します。 0.69
17 e m a G 17 e m a G 0.85
s w a J d n u o r r u S s w a J d n u o r r u S 0.85
s n e i l A s n e i l A 0.85
e s a h C e s a h c r e d l u o B e s a h C e s a h c r e d l u o B 0.85
e l o m a k c a h W e l o m a k c a h W 0.85
e m i T 104 103 500 250 E m i T 104 103 500 250。 0.90
104 103 500 250 104 103 500 250 0.85
104 103 500 250 104 103 500 250 0.85
104 103 500 250 104 103 500 250 0.85
104 103 500 250 104 103 500 250 0.85
104 103 500 250 104 103 500 250 0.85
a d l e Z 104 103 500 250 ∅ Rank Table a d l e Z 104 103 500 ランク テーブルします。 0.83
S T C MO 100% 1083.8 92.5% 1028.2 85% 923.4 85% 1000.9 100% 81.5 100% 83.0 100% 84.6 100% 83.4 100% 82.4 100% 79.7 100% 78.0 100% 77.7 87.5% 6.2 60% 4.8 55% 4.9 40% 4.2 62.5% 23.7 50% 22.8 47.5% 24.7 40% 20.9 100% 72.5 100% 64.0 100% 59.5 97.5% 54.8 97.5% 8.3 80% 8.8 62.5% 8.6 55% 8.4 1.6 2: The results S T C MO 100% 1083.8 92.5% 1028.2 85% 923.4 85% 1000.9 100% 81.5 100% 83.0 100% 84.6 100% 83.4 100% 82.4 100% 79.7 100% 78.0 100% 77.7 87.5% 6.2 60% 4.8 55% 4.9 40% 4.2 62.5% 23.7 50% 22.8 47.5% 24.7 40% 20.9 100% 72.5 100% 64.0 100% 59.5 97.5% 54.8 97.5% 8.3 80% 8.8 62.5% 8.6 55% 8.4 1.6 2: The results 0.67
S O T L T C O O M Y B 100% 27.5% 274.7 832.7 95% 35% 391.0 958.9 90% 65% 1023.1 705.7 85% 32.5% 359.6 997.6 100% 100% 81.2 71.0 100% 100% 77.3 80.8 100% 100% 83.3 61.8 100% 100% 76.1 64.7 100% 100% 81.5 81.6 100% 100% 82.2 78.4 100% 100% 81.1 77.3 100% 100% 79.3 77.1 50% 80% 4.8 6.0 70% 50% 5.1 4.8 90% 45% 5.5 4.5 90% 32.5% 5.6 4.1 45% 75% 18.8 22.1 52.5% 32.5% 21.8 18.6 35% 30% 18.3 20.2 60% 40% 21.7 20.1 100% 75% 37.0 44.4 100% 55% 33.9 41.8 100% 57.5% 29.0 50.0 100% 50% 28.5 45.9 95% 87.5% 3.8 7.4 87.5% 85% 5.3 7.5 77.5% 75% 4.6 8.2 70% 55% 4.4 7.8 2.5 2.6 algorithms of S O T L T C O O M Y B 100% 27.5% 274.7 832.7 95% 35% 391.0 958.9 90% 65% 1023.1 705.7 85% 32.5% 359.6 997.6 100% 100% 81.2 71.0 100% 100% 77.3 80.8 100% 100% 83.3 61.8 100% 100% 76.1 64.7 100% 100% 81.5 81.6 100% 100% 82.2 78.4 100% 100% 81.1 77.3 100% 100% 79.3 77.1 50% 80% 4.8 6.0 70% 50% 5.1 4.8 90% 45% 5.5 4.5 90% 32.5% 5.6 4.1 45% 75% 18.8 22.1 52.5% 32.5% 21.8 18.6 35% 30% 18.3 20.2 60% 40% 21.7 20.1 100% 75% 37.0 44.4 100% 55% 33.9 41.8 100% 57.5% 29.0 50.0 100% 50% 28.5 45.9 95% 87.5% 3.8 7.4 87.5% 85% 5.3 7.5 77.5% 75% 4.6 8.2 70% 55% 4.4 7.8 2.5 2.6 algorithms of 0.68
S T C MB P 80% 895.7 52.5% 788.5 50% 577.6 37.5% 548.8 100% 64.3 100% 40.8 100% 26.3 100% 14.3 100% 81.8 100% 76.9 100% 77.2 100% 75.8 67.5% 5.2 30% 3.7 27.5% 2.9 17.5% 2.5 82.5% 27.3 40% 18.1 32.5% 19.4 17.5% 14.7 97.5% 60.1 77.5% 43.9 70% 38.1 65% 35.1 90% 9.6 57.5% 8.6 50% 8.8 45% 8.0 3.5 per S T C MB P 80% 895.7 52.5% 788.5 50% 577.6 37.5% 548.8 100% 64.3 100% 40.8 100% 26.3 100% 14.3 100% 81.8 100% 76.9 100% 77.2 100% 75.8 67.5% 5.2 30% 3.7 27.5% 2.9 17.5% 2.5 82.5% 27.3 40% 18.1 32.5% 19.4 17.5% 14.7 97.5% 60.1 77.5% 43.9 70% 38.1 65% 35.1 90% 9.6 57.5% 8.6 50% 8.8 45% 8.0 3.5 per 0.63
tuned X A M X I M 67.5% 866.8 65% 736.4 52.5% 629.0 37.5% 469.0 100% 57.6 100% 25.0 100% 17.3 100% 10.3 100% 77.0 100% 76.4 100% 76.0 100% 74.8 37.5% 3.9 17.5% 2.6 12.5% 2.1 7.5% 2.6 30% 20.1 22.5% 16.2 15% 14.4 15% 15.3 75% 48.5 65% 39.0 52.5% 35.4 52.5% 26.6 70% 8.1 42.5% 8.8 35% 7.8 30% 7.2 4.7 tuned X A M X I M 67.5% 866.8 65% 736.4 52.5% 629.0 37.5% 469.0 100% 57.6 100% 25.0 100% 17.3 100% 10.3 100% 77.0 100% 76.4 100% 76.0 100% 74.8 37.5% 3.9 17.5% 2.6 12.5% 2.1 7.5% 2.6 30% 20.1 22.5% 16.2 15% 14.4 15% 15.3 75% 48.5 65% 39.0 52.5% 35.4 52.5% 26.6 70% 8.1 42.5% 8.8 35% 7.8 30% 7.2 4.7 0.74
row. 列。 0.63
英語(論文から抽出)日本語訳スコア
18 Tobias Joppen, 18 トビアス Joppen 0.56
Johannes F¨urnkranz ヨハネス・f・シュルンクランツ 0.25
Table overall 3: Results for different parameters for all shown. テーブル全体 3: 異なるパラメータに対する結果が示されます。 0.81
is budgets and all games over rank 予算とランク上のすべてのゲームです 0.76
algorithms except アルゴリズム 以外は 0.70
of YOLOBOT YOLOBOTとは? 0.55
(Rank 15). (ランク) 15). 0.78
In each cell, the 内 各々 セル はあ? 0.54
the to Jaws O-MCTS performs stochastic and like Zelda, Boulderchase comparable games anyone better other significant performing than the algorithms without others. to jaws o-mctsは確率的であり、ゼルダと同様、boulderchaseは他のアルゴリズムよりも優れたパフォーマンスのゲームに匹敵する。 0.67
are the summarizes Figure can considered. 図が考慮できる要約です。 0.53
seen, be It games only won results when 4b in this case, PB-MCTS is that than MCTS. この場合、4b、PB-MCTSがMCTSよりも大きい場合のみ、ゲームが勝利しました。 0.79
This if PB-MCTS that significantly better implies it does to win, less often. pb-mctがそれよりも優れているとすると、勝利は少なくなる。 0.62
YOLOBOT score than MCTS, but manages so with a greater it wins falls behind not the score. YOLOBOTのスコアはMCTSよりも優れていますが、勝率が大きくなるとスコアが遅れます。 0.77
because it is designed the win rate, to primarily maximize the hereby added bias seen that can easily be Inspecting the performance of MIXMAX it (see games only won at a results towards often scores higher Figure death: Looking in 4b) performance achieves overall its is significantly worse. 勝率を最大化するため、主にmixmax itのパフォーマンスを検査し易いバイアスを最大化するため(しばしば高いフィギュアデスのスコアを得る結果で勝利するゲームを見る:4bで見る)、全体的なパフォーマンスは著しく悪化する。
訳抜け防止モード: それは、勝利率をデザインするため、主に、mixmax it(リンク)のパフォーマンスを検査し易いバイアスを最大化する(リンク)。 ゲームは、しばしばより高いフィギュアデスを獲得するために、結果でのみ勝ちます : 4b) 全体のパフォーマンスは著しく悪化する。
0.79
it a higher rank than MCTS, but that maximize preference In conclusion, we found evidence that O-MCTS’s for actions win rate works better than MCTS’s tendency to maximize average performance for the tested domains. MCTSよりも高いランクですが、優先度を最大化する結論として、O-MCTSの行動勝利率は、テストされたドメインの平均パフォーマンスを最大化するMCTSの傾向よりも優れています。 0.75
Parameter Optimization shown. パラメータ最適化を示す。 0.70
visible It correctly important 可視性 正しく重要である 0.70
is clearly tune to In Table 3 the overall that low rollout a the than 明らかに順調です 表3では、全体のロールアウトが1よりも低い 0.63
exploration-exploita tion exploration‐exploitation 0.58
rank over all parameters for all algorithms are length RL improves is more Since YOLOBOT すべてのアルゴリズムの全てのパラメータをランク付けすると、RLは改善する。 0.75
performance trade-off C. パフォーマンス トレードオフC。 0.72
and O-MCTS00.250.50.7511 .251.51.752531179741 11313103912651416210 82545192435432729512 05074594661495557695 6PB-MCTS00.250.50.75 11.251.51.7525636771 72736268646510808389 79668286787725979491 10010115310410392501 51105154152155108148 106145MixMax00.250.5 0.7511.251.51.752514 61479899969510710214 91016215816116315915 01571601562517416717 31781651701661641725 01811691681711761791 77175180MCTS00.250.5 0.7511.251.51.752553 18233041223228401060 21362526343837332576 52424454485058475088 7075818584908793N-MC TS00.250.50.7511.251 .51.7525000000000100 00000000250000000005 0000000000Rollout LengthRollout LengthRollout LengthRollout LengthRollout LengthExploration-Ex ploitation そして O-MCTS00.250.50.7511 .251.51.752531179741 11313103912651416210 82545192435432729512 05074594661495557695 6PB-MCTS00.250.50.75 11.251.51.7525636771 72736268646510808389 79668286787725979491 10010115310410392501 51105154152155108148 106145MixMax00.250.5 0.7511.251.51.752514 61479899969510710214 91016215816116315915 01571601562517416717 31781651701661641725 01811691681711761791 77175180MCTS00.250.5 0.7511.251.51.752553 18233041223228401060 21362526343837332576 52424454485058475088 7075818584908793N-MC TS00.250.50.7511.251 .51.7525000000000100 00000000250000000005 0000000000Rollout LengthRollout LengthRollout LengthRollout LengthRollout LengthExploration-Ex ploitation 0.37
英語(論文から抽出)日本語訳スコア
Ordinal Monte Carlo Tree Search モンテカルロ ツリー検索します。 0.69
19 no parameters, 19 いや パラメータ。 0.69
has shown. Except not is it better is any than O-MCTS with RL = 5 O-MCTS with RL = 5 and C = 1.25. 示しました ただし、RL = 5 O-MCTS と RL = 5 と C = 1.25 の O-MCTS より優れている。 0.76
Video Demonstrations the For agent wins3. Video Demonstrations the For agent wins3。 0.89
those In videos lead score, whereas MCTS play more safely—often too cautious and averse to risking to a higher deadly effect. ビデオではスコアを導きますが、MCTSはより安全に再生します。
訳抜け防止モード: those Inビデオはスコアをリードするが、 MCTSは安全を保ち、しばしば慎重であり、より致命的な影響を負うリスクに逆らう。
0.65
potentially any for no other MCTS algorithm. 潜在的に 他のMCTSアルゴリズムのため。 0.68
The algorithm and each can it be あらすじ アルゴリズムと各々が 0.42
(C = 0), configuration is (C = 0)、構成は 0.76
video where actions that ビデオをご覧ください 0.43
that O-MCTS frequently O-MCTSは頻繁に 0.59
exploration best recorded a plays 最善の探検 演奏を録音し 0.64
game, we extreme ゲーム、私たち 極端 0.75
have seen case 持ってる 見た ケース 0.60
the of In はあ? ですから 内 0.50
of our 5 Conclusion a modification of MCTS handles that the rewards in In this paper we proposed O-MCTS, it values backpropagated estimation, to value a obtain an averaging Instead ordinal way: an action using the Borda the winning probability of score. ですから 私達 5) MCTS の修正は,O-MCTS の報酬を処理し,O-MCTS を逆プロパゲーション推定値として提案し,平均値から平均値を得る方法(ボルダを用いた動作)をスコアの勝利確率として評価した。 0.61
By doing so, the magestimates are disregarded, which can be useful reward signals in nitude of distances between different using compared O-MCTS the GVGAI ordinal domains. これにより、magestimatesは無視され、gvgai ordinal domainの比較o-mctsを用いて異なる距離のnitudeにおいて有用な報酬信号となる。 0.63
experiments framework, we a to MCTS, PB-MCTS, MIXMAX and YOLOBOT, domain. 実験フレームワーク、我々はMCTS、PB-MCTS、MIXMAXとYOLOBOT、ドメインです。 0.74
Overagent specialized this for algorithms, than the other scores and reached higher all, O-MCTS achieved higher win rates in domains where numeric reward informaconfirming that this approach can even be useful based available. overagent氏はこれを他のスコアよりもアルゴリズムに特化しており、さらに高い値に達したo-mctsは、数値報酬インフォメータがこのアプローチが有用であることを証明したドメインにおいて高い勝利率を達成した。 0.59
O-MCTS is tion ordinal variation of UCB which we also on O-UCB, an introduced and tested. O-MCTS は UCB の経時的変化であり,O-UCB にも作用する。 0.62
Additionally, we have introduced of O-UCB a hierarchical that thresholds ordinal define to possible with which are optimized first. さらに、我々はO-UCBを階層的に導入し、最初に最適化された順序のしきい値を定義した。 0.63
is it Acknowledgments Research This work was supported by the German 580/10). この研究はドイツの580/10によって支援された)。 0.67
We project number FU gratefully acknowledge the use of the experiments. プロジェクト番号FUは実験の使用を感謝します。 0.59
our for the TU Darmstadt computer of performance TU Darmstadtのパフォーマンスコンピュータのために 0.73
Foundation Lichtenberg 財団法人リヒテンベルク 0.54
(DFG high version (DFG高) バージョン 0.83
is Z., T.: pp. は Z。 T.: pp。 0.80
Karnin, bandits of カルニン bandits of... 0.46
In: International problem. Machine 専門は国際問題。 機械 0.63
235–256 justification Powley, Intelligence 1–30 (2006) 235–256 Powley, Intelligence 1–30 (2006) 0.86
References dueling to cardinal bandits. 基調バンドへの参照デュエル。 0.49
Ailon, 1. Reducing Joachims, N., (2014) Conference on Machine Learning, 856–864 analysis the multiarmed bandit Auer, P., Cesa-Bianchi, N., Fischer, P.: Finite-time 2. Ailon, 1。 Reduce Joachims, N., (2014) Conference on Machine Learning, 856–864 analysis the multiarmed bandit Auer, P., Cesa-Bianchi, N., Fischer, P.: Finite-time 2 0.90
47(2-3), (2002) Learning Public Choice 28(1), 1–15 (1976) the Borda Black, D.: Partial 3. count. 47(2-3), (2002) Learning Public Choice 28(1), 1–15 (1976) the Borda Black, D.: Partial 3.count 0.90
of Rohlfshagen, Cowling, S.M., D., E., Whitehouse, Browne, P.I., S., Tavener, Lucas, C.B., 4. search methods. Rohlfshagen, Cowling, S.M., D., E., Whitehouse, Browne, P.I., S., Tavener, Lucas, C.B., 4.検索法 0.94
Perez, D., Samothrakis, S., Colton, S.: A survey of Monte Carlo tree IEEE Transactions in Games 4(1), 10.1109/tciaig.2012. 2186810 and AI 1–43 on Computational (2012). Perez, D., Samothrakis, S., Colton, S.: A survey of Monte Carlo tree IEEE Transactions in Games 4(1), 10.1109/tciaig.2012. 2186810 and AI 1-43 on Computational (2012) 0.93
DOI Demˇsar, Statistical J.: data sets. DOI Demésar, Statistical J.: データセット。 0.86
Journal of Machine Learning comparisons of classifiers 7(Jan), Research In: Jacobsen, J.: Monte Mario: Togelius, the Proceedings Platforming with MCTS. Journal of Machine Learning Comparisons of Classifiers 7(Jan), Research In: Jacobsen, J.: Monte Mario: Togelius, the Proceedings Platforming with MCTS。 0.83
E.J., Greve, R., 293–300. E.J., Greve, R., 293–300。 0.79
ACM (2014) and Evolutionary Computation, 2014 Annual Conference on Genetic Jamieson, K.G., Katariya, S., Deshpande, A., Nowak, R.D. ACM (2014) and Evolutionary Computation, 2014 Annual Conference on Genetic Jamieson, K.G., Katariya, S., Deshpande, A., Nowak, R.D. 0.96
: Sparse dueling bandits. Sparse dueling bandits 0.40
In: AISTATS (2015) Joppen, T., Moneke, M.U., Schr¨oder, N., Wirth, C., F¨urnkranz, J.: hybrid tree game for search IEEE Transactions on Games 10(1), 78–90 (2018). In: AISTATS (2015) Joppen, T., Moneke, M.U., Schr ・oder, N., Wirth, C., F ・urnkranz, J.:ゲーム10(1), 78–90 (2018)でIEEEトランザクションを検索するためのハイブリッドツリーゲーム。 0.82
DOI 10.1109/TCIAIG. DOI 10.1109/TCIAIG 0.63
general video game playing. 一般的なビデオゲーム。 0.86
2017.2722235 of Joppen, T., Wirth, C., the Proceedings In: search. 2017年、Joppen, T., Wirth, C., the Proceedings In: search.2722235。 0.81
41st German Conference Khalifa, A., video game general human-like Intelligence playing. 41st German Conference Khalifa, A., Video Game General Human-like Intelligence Play。 0.93
In: Proceedings of (IJCAI-16), pp. In: Proceedings of (IJCAI-16), pp。 0.87
2514–2520 You can watch 2514–2520 ご覧ください 0.77
F¨urnkranz, J.: Preference-based Monte Carlo tree on AI (2018) (KI-18) Isaksen, A., Togelius, J., Nealen, A.: Modifying MCTS for the 25th International (2016) the videos F surnkranz, J.: Preference-based Monte Carlo tree on AI (2018) (KI-18) Isaksen, A., Togelius, J., Nealen, A.:Modifying MCTS for the 25th International (2016) 0.96
Joint Conference on Artificial pp. 人工関節の国際会議 pp. 0.78
Informed https://bit.ly/2ohbY b3 情報 https://bit.ly/2ohbY b3 0.51
over multiple 5. 6. 7. 複数の 5. 6. 7. 0.82
8. 9. 10. P., 8. 9. 10. P。 0.81
of 3 at ですから 3 に 0.71
英語(論文から抽出)日本語訳スコア
20 11. 12. 20 11. 12. 0.85
13. 14. 15. 13. 14. 15. 0.85
16. 17. 18. 16. 17. 18. 0.85
19. 20. 21. 19. 20. 21. 0.85
22. Tobias Joppen, 22. トビアス Joppen 0.56
Johannes F¨urnkranz ヨハネス・f・シュルンクランツ 0.25
Proceedings 4335–4337 経過 4335–4337 0.53
(2016) In: Proceedings of (2016) In:Proceedings of 0.76
the 30th AAAI Conference on Artificial 第30回 AAAI Conference on Artificial 0.90
based Monte-Carlo (ECML-06), モンテカルロ基地(ECML-06) 0.76
pp. evaluating agents, games pp. エージェントやゲームの評価 0.79
S., Agarwal, A., solutions. S., Agarwal, A., ソリューション。 0.77
tournament Advances (eds.) tournament Advances (複数形 tournament Advances) 0.82
Garnett Curran Inc. Associates, Simonyan, K., Antonoglou, Garnett Curran Inc. Associates, Simonyan, K., Antonoglou, 0.92
Szepesv´ari, C.: Bandit 17th European the of In: planning. Szepesv ́ari, C.: Bandit 17th European The of In: Planning 0.90
Kocsis, L., 282–293 (2006) Conference on Machine Learning video S.M. Kocsis, L., 282–293 (2006) Conference on Machine Learning video S.M。 0.91
: General game AI: J., Khalifa, A., Gaina, R.D., Togelius, J., Lucas, Perez-Liebana, D., Liu, and content generation algorithms. 一般的なゲームAI: J., Khalifa, A., Gaina, R.D., Togelius, J., Lucas, Perez-Liebana, D., Liu,およびコンテンツ生成アルゴリズム。 0.93
arXiv preprint A multi-track framework for arXiv:1802.10363 (2018) Perez-Liebana, D., Samothrakis, S., Togelius, J., Lucas, S.M., Schaul, T.: General video game AI: Competition, challenges Inteland opportunities. arXiv preprint arXiv:1802.10363 (2018) Perez-Liebana, D., Samothrakis, S., Togelius, J., Lucas, S.M., Schaul, T.: General video game AI: Competition, Challenge Inteland opportunity。 0.90
ligence, pp. Puterman, M.L. リージェンス、p。 パターマン、M.L。 0.48
: Markov Decision Processes: Discrete Stochastic Dynamic Programming, 2nd edn. : Markov Decision Processes: Discrete Stochastic Dynamic Programming, 2nd edn。 0.87
Wiley (2005) Beyond S.: Rajkumar, S.Y., Ramamohan, Dueling Agarwal, Lee, D.D. Wiley (2005) Beyond S.: Rajkumar, S.Y., Ramamohan, Dueling Agarwal, Lee, D.D. 0.95
winners condorcet to general U.V. 勝者は米国将軍に譲歩する 0.47
M. In: Luxburg, Guyon, R. I. SysInformation in Neural 1253–1261. M. In: Luxburg, Guyon, R. I. SysInformation in Neural 1253-1261 0.87
pp. tems 29, http://papers.nips.c c/paper/ URL (2016). pp. tems 29, http://papers.nips.c c/paper/ URL (2016) 0.77
6337-dueling-bandits -beyond-condorcet-wi nners-to-general-tou rnament-solutions.pd f Silver, D., Schrittwieser, J., I., Huang, A., Guez, A., Hubert, T., Baker, L., al. 6337-dueling-bandits -beyond-condorcet-wi nners-to- general-tournament-s olutions.pdf Silver, D., Schrittwieser, J., I., Huang, A., Guez, A., Hubert, T., Baker, L., al. 0.70
: Mastering the game of Go without human knowledge. :人間の知識を使わずに悟りのゲームをマスターする。 0.63
Nature 550(7676), 354 Lai, M., Bolton, A., et (2017) analysis. Nature 550(7676), 354 Lai, M., Bolton, A., et (2017) 分析。 0.76
Prentice Hall Englewood Cliffs, NJ statistical Sprinthall, R.C., Fisk, S.T. Prentice Hall Englewood Cliffs, NJ statistics Sprinthall, R.C., Fisk, S.T. 0.93
: Basic F´eraud, Generic S.: Naamane, Urvoy, R., voting exploration pp. 基礎 F ́eraud, Generic S.: Naamane, Urvoy, R., voting exploration pp。 0.86
on Machine Learning, International Conference 91–99 (2013) Vargha, A., Delaney, H.D. on Machine Learning, International Conference 91-99 (2013) Vargha, A., Delaney, H.D. 0.94
: A critique and improvement of the ”cl” common language effect and Behavioral Educational of of mcgraw and wong. : mcgraw と wong の「cl」共通言語効果と行動教育の批判と改善 0.62
Journal 101–132 http://www.jstor.org /stable/1165329 decision Weng, processes with ordinal rewards: P.: Markov on Automated International Conference of Proceedings 21st the ICAPS (2011) Yannakakis, G.N., nature ordinal R., of The Cowie, International Conference on Affective Computing and Intelligent Zoghi, M., Whiteson, S., Munos, R., Rijke, M.: Relative upper confidence bound for bandit pp. Journal 101–132 http://www.jstor.org /stable/1165329 decision Weng, process with Ordinal rewards: P.: Markov on Automated International Conference of Proceedings 21st the ICAPS (2011) Yannakakis, G.N., Nature Ordinal R., of The Cowie, International Conference on Affective Computing and Intelligent Zoghi, M., Whiteson, S., Munos, R., Rijke, M.: Relative upper confidence bound for bandit pp. 0.93
(1990) In: bandits. (1990年) in: bandits。 0.77
size statistics 25(2), URL (2000). サイズ統計 25(2), URL (2000)。 0.72
Statistics preferences. In: Reference point-based (ICAPS-11), Planning and Scheduling Proceedings In: emotions. 統計の好み。 In: Reference Point-based (ICAPS-11), Planning and Scheduling Proceedings In: emotions。 0.82
7th of (2017) Interaction (ACII-17) the k-armed dueling on Machine Learning (ICML-14), 7th of (2017) Interaction (ACII-17) the k-armed dueling on Machine Learning (ICML-14) 0.90
International Conference (2014). 国際会議(2014年)。 0.71
URL http://proceedings.m lr.press/v32/zoghi14 .html URL http://proceedings.m lr.press/v32/zoghi14 .html 0.31
In: Proceedings In:Proceedings 0.64
bandits: Sugiyama, Processing problem. 盗賊:杉山、処理 問題よ 0.63
10–18 and k-armed 10–18 そして k武装 0.65
Busso, C.: T., Clerot, 仏祖。 C. T。 Clerot 0.56
F., of the F。 ですから はあ? 0.54
31st the 31日 はあ? 0.51
                                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。