論文の概要、ライセンス

# (参考訳) 学習アルゴリズムにおけるリスク回避と推薦システムへの応用 [全文訳有]

Risk Aversion In Learning Algorithms and an Application To Recommendation Systems ( http://arxiv.org/abs/2205.04619v1 )

ライセンス: CC BY 4.0
Andreas Haupt and Aroon Narayanan(参考訳) バンディット学習環境を考える。 我々は,upper confidence band (ucb) や $\varepsilon$-greedy といった一般的な学習アルゴリズムがリスク回避を示すことを実証する。 我々は、$\varepsilon$-Greedy が決定論的かつラデマチャー分布のアームに直面した場合、確率が0$となる危険腕を選択することを証明した。 UCBはリスク回避行動も示しており,リスク回避は,リスクの高い腕がわずかに高い期待を抱いても,早期学習において持続的に現れることを実験的に示す。 このモデルをレコメンデーションシステムに校正し,アルゴリズムによるリスク回避が消費者の余剰を減少させ,均質性を高めることを示す。 本稿では,他のバンディットアルゴリズムの拡張,強化学習,決定理論に対するアルゴリズム的リスク回避の影響について考察する。

Consider a bandit learning environment. We demonstrate that popular learning algorithms such as Upper Confidence Band (UCB) and $\varepsilon$-Greedy exhibit risk aversion: when presented with two arms of the same expectation, but different variance, the algorithms tend to not choose the riskier, i.e. higher variance, arm. We prove that $\varepsilon$-Greedy chooses the risky arm with probability tending to $0$ when faced with a deterministic and a Rademacher-distribut ed arm. We show experimentally that UCB also shows risk-averse behavior, and that risk aversion is present persistently in early rounds of learning even if the riskier arm has a slightly higher expectation. We calibrate our model to a recommendation system and show that algorithmic risk aversion can decrease consumer surplus and increase homogeneity. We discuss several extensions to other bandit algorithms, reinforcement learning, and investigate the impacts of algorithmic risk aversion for decision theory.
公開日: Tue, 10 May 2022 01:30:24 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] G L . s c [ ] G L。 sc [ 0.47
1 v 9 1 6 4 0 1 v 9 1 6 4 0 0.42
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Risk Aversion In Learning Algorithms 学習アルゴリズムにおけるリスク回避 0.75
and an Application To Recommendation Systems∗ そしてレコメンデーションシステムへの応用* 0.54
Andreas Haupt アンドレアス・ハウプト 0.52
Aroon Narayanan アルーン・ナラヤナン(aroon narayanan) 0.31
May 11, 2022 2022年5月11日 0.71
Abstract Consider a bandit learning environment. 概要 バンディット学習環境を考える。 0.48
We demonstrate that popular learning algorithms 一般的な学習アルゴリズムは 0.55
such as Upper Confidence Band (UCB) and ε-Greedy exhibit risk aversion: when presented 例えば、アッパー信頼バンド(UCB)やε-グレディはリスク回避を示す: 0.68
with two arms of the same expectation, but different variance, the algorithms tend to not 同じ期待の腕が2つあっても ばらつきが違うと アルゴリズムは 0.61
choose the riskier, i.e. higher variance, arm. リスクの高いものを選ぶ、すなわち、より高いばらつき、アーム。 0.61
We prove that ε-Greedy chooses the risky arm ε-Greedyがリスクアームを選択することを証明します。 0.49
with probability tending to 0 when faced with a deterministic and a Rademacher-distribut ed 決定論的でラデマチャー分布に直面すると0の確率で 0.64
arm. We show experimentally that UCB also shows risk-averse behavior, and that risk aversion 腕だ UCBもリスク回避行動を示し、リスク回避を実験的に示す。 0.66
is present persistently in early rounds of learning even if the riskier arm has a slightly higher リスクの高い腕が少し高くても 早期の学習ラウンドで持続的に現れます 0.70
expectation. We calibrate our model to a recommendation system and show that algorithmic risk 期待してる 私たちはモデルをレコメンデーションシステムに調整し、アルゴリズムのリスクを示す 0.69
aversion can decrease consumer surplus and increase homogeneity. 嫌悪は 消費者の余剰を減らし 均質性を高めます 0.56
We discuss several extensions いくつかの拡張について論じる 0.45
to other bandit algorithms, reinforcement learning, and investigate the impacts of algorithmic 他のバンディットアルゴリズム、強化学習、アルゴリズムの影響の調査など 0.69
risk aversion for decision theory. 決定論のリスク回避。 0.58
1 Introduction Online learning algorithms are used widely in the digital economy—their applications range from 1 はじめに オンライン学習アルゴリズムはデジタル経済で広く使われている。 0.57
recommendation systems to trading algorithms. 取引アルゴリズムへのレコメンデーションシステム。 0.59
These algorithms learn about the economic envi- これらのアルゴリズムは経済環境について学ぶ- 0.62
ronment while interacting within it, making them a useful tool to deploy in settings of incomplete ローメントは内部で相互作用し、不完全な設定でデプロイする便利なツールになる 0.75
information. As they are used in more and more settings of economic interest, it becomes important 情報だ 経済的な関心の設定で使われるようになり、重要になっていく。 0.64
to understand the economic implications of their use. 経済的な意味を理解するためです 0.57
For example, Calvano et al (2020) show that 例えば Calvano et al (2020) は、 0.60
∗ We thank the mathoverflow.com user fedja for a helpful reply, and David Parkes and seminar audiences at Harvard ∗ mathoverflow.comのfederaさん、ハーバードのdavid parkesさんとセミナーの聴衆に感謝します。
訳抜け防止モード: ∗ mathoverflow.com ユーザ fedja に感謝します。 ハーバード大学のデビッド・パークスとセミナーの聴衆は
0.53
for helpful comments. 役に立つコメントのために 0.54
1 1 0.42
英語(論文から抽出)日本語訳スコア
pricing algorithms can learn to collude without being explicitly told to do so, achieving close to 価格設定アルゴリズムは、明示的に指示されることなく衝突を学習し、近くを達成することができる 0.56
perfect collusion. We are interested in the behavioral implications of using particular learning algorithms, primar- 完璧だ 我々は、特定の学習アルゴリズム、プライマーを用いた行動的含意に関心がある。 0.46
ily in terms of inherent risk preferences. 本質的にリスクの選好です 0.47
To be more precise, take the simple example of providing より正確に言うと 簡単な例を挙げてみましょう 0.76
the learning algorithm with two options—either pull lever A and get a certain payoff of 0, or pull lever B and get a stochastic payoff of either 1 or −1, distributed uniformly. 2つの選択肢を持つ学習アルゴリズム - プルレバーaで0の一定の報酬を得るか、プルレバーbで1または−1の確率的報酬を均一に分配する。 0.71
At any point in time, contingent on past observations of payoffs from pulled action (the bandit setting), an algorithm 任意の時点において,引き抜き動作(バンドイット設定)による過去の支払の観測に基づいて,アルゴリズム 0.76
specifies a distribution on actions it takes next. 次に行うアクションの分布を指定する。 0.80
What risk attitude does this implied choice func- リスク態度とは何か- 0.44
tion have? Typical notions of bandit convergence in terms of regret do not make predictions in ティメントは? 後悔という観点からのバンディット収束の典型的な概念は予測をしない 0.61
cases where algorithms need to choose among options of the same expected action, or in early アルゴリズムが同じ行動の 選択肢を選ぶ必要がある場合、または、早い段階で 0.71
rounds of learning, when regret guarantees do not give strong guarantees yet. 学習のラウンド 後悔の保証が まだ 確固たる保証を与えていないとき 0.70
In these cases, other このようなケースでは 0.71
features of algorithms might determine how algorithms choose among actions. アルゴリズムの特徴は、アルゴリズムがどのように行動を選択するかを決定する。 0.55
These questions have an increasing range of implications today due to the importance of bandit これらの質問は、現在、盗賊の重要性から、様々な意味を持つ。 0.50
algorithms, for example in recommendation systems. 例えば、レコメンデーションシステムにおけるアルゴリズム。 0.58
The analysis for these systems is asymptotic, これらのシステムの分析は漸近的です。 0.72
but transient behaviour is predominant in a world where data is big and changes quickly—the しかし、データが大きく、変化が速い世界では、一時的な行動が主流です。 0.65
amount of content that a user can engage with is increasing, which raises questions on whether ユーザが参加できるコンテンツの量が増えているため、疑問が持ち上がっている。 0.73
asymptotic rates of convergence can ensure intended behavior by algorithms. 漸近収束率はアルゴリズムによって意図された振舞いを保証できる。 0.60
A mismatch between intended behavior of an algorithm can have real world consequences. アルゴリズムの意図した振る舞いのミスマッチは実世界の結果をもたらす可能性がある。 0.56
As mechanism design Maskin and Riley (1984) shows, risk aversion can significantly impact the terms として Maskin and Riley (1984) のメカニズム設計によると、リスク回避は用語に大きな影響を与える 0.62
of business that are determined. 決定的なビジネスのことです 0.67
A preference for safer, lower value options when riskier but slightly リスクが高いが少しでも低い価値の選択肢を好むこと 0.68
higher value options are available can introduce inefficiency in platform design. より高い価値オプションは、プラットフォーム設計に非効率を導入することができる。 0.59
Our contributions are threefold. 私たちの貢献は3倍です。 0.56
First, we introduce a relevant definition of risk aversion for まず,リスク回避の定義について紹介する。 0.66
bandit algorithms. 盗賊のアルゴリズムだ 0.68
Our analysis of risk aversion combines theory with empirics. リスク回避に関する我々の分析は、理論と経験を組み合わせる。 0.60
Second, we establish theoretically that the ε-Greedy algorithm chooses the less risky arm with 第2に、ε-Greedyアルゴリズムがリスクの低いアームを選択することを理論的に確立する。 0.55
high probability when the arms have equal expected value. 腕が期待値と等しい場合の確率が高い。 0.77
The tractability of this analysis relies この分析の扱いやすさは 0.74
on the fact that ε-Greedy is an index policy with expected value for each of the actions being ε-greedy が各アクションに対する期待値を持つインデックスポリシーであるという事実について 0.84
the corresponding index. 対応するインデックス。 0.65
This structure allows us to describe the learning dynamics by a one- この構造は、学習のダイナミクスを1つで記述できる。 0.78
dimensional random walk, whose asymptotic behavior is well-understood. 次元ランダムウォーク、その漸近的行動はよく理解されている。 0.47
Many other algorithms その他の多くのアルゴリズム 0.59
also use an index (usually reward estimates for actions) such as EXP3, Thompson Sampling and また、EXP3、Thompson Samplingのようなインデックス(通常、アクションに対する報酬推定)を使用する。 0.70
Upper Confidence Band algorithms (compare Lattimore and Szepesv´ari (2020)), and we expect 上層信頼帯アルゴリズム (lattimore and szepesv ́ari (2020)) と期待する。 0.73
2 2 0.42
英語(論文から抽出)日本語訳スコア
Figure 1: Main intuition for risk aversion in online algorithms. 図1:オンラインアルゴリズムにおけるリスク回避の主な直観。 0.76
that our approach can be suitably generalized to analyze this class of algorithms. このタイプのアルゴリズムを解析するのに 適当に一般化できるということです 0.71
Finally, we complement our theoretical analysis by running simulations in practically relevant 最後に,シミュレーションによる理論解析を実践的に補完する。 0.80
settings, such as the recommendation system environment, for widely studied algorithms such as 広く研究されているアルゴリズムの設定、例えばレコメンデーションシステム環境は 0.58
UCB. We also discuss the economic import of our results, in particular towards a decision theory ucb。 また、結果の経済的輸入、特に意思決定理論についても論じる。 0.48
for algorithms. 1.1 Main Intuition for the Results アルゴリズムです 1.1 結果に対する主な直観 0.62
The main intuition for our results is that many algorithms undersample actions for which they 結果の主な直観は、多くのアルゴリズムがそれらの動作をサンプル化しているということです。 0.55
received low rewards. Riskier actions that get a low reward are “trapped” in pessimistic estimates 報酬は低かった。 低い報酬を得るリスクの高い行動は悲観的な見積もりで“追跡”される 0.68
of reward. This leads to a behaviour consistent with risk aversion over long time spans of learning. 報酬だ これにより、長い時間にわたる学習のリスク回避と整合した行動につながる。 0.58
This is represented in Figure 1. これは図1で示されます。 0.76
In the region of advantage for the risky arm above the x-axis, x軸の上の危険な腕の有利な領域では、 0.73
the estimate moves around more, and since expected values are the same, the advantage can 推定値はより多く動き、期待値が同じであるので、利点は 0.72
quickly dissipate and becoming negative, at which point the advantage is updated less often, which 素早く消散し、否定的になり、その時点で利点があまり更新されない。 0.66
means that the risky arm is undersampled. 危険な腕がアンサンプされているということです 0.40
This can persist for quite long, and for perfectly risky これは非常に長く持続し、完全に危険である 0.75
algorithms such as the ε-Greedy, it is the dominant effect. ε-greedyのようなアルゴリズムが支配的な効果である。 0.79
3 Stickiness of Bad ReputationtEstimated Advantage of a risky armHigh varianceLow VarianceA non-uniform random walk will spend more time in places with less diffusion 3 非一様無作為歩行は拡散の少ない場所でより多くの時間を費やす。 0.39
英語(論文から抽出)日本語訳スコア
2 Related Work Algorithmic collusion: A closely related strand of literature studies algorithmic collusion, for exam- 2 関連作業 アルゴリズム的結束:アルゴリズム的結束に関する文学研究の密接な関係 : 試験のためのアルゴリズム的結束- 0.66
ple in Calvano et al (2020); Brown and MacKay (2021); Asker et al (2021); Hansen et al (2021) ple in Calvano et al (2020), Brown and MacKay (2021), Asker et al (2021), Hansen et al (2021) 0.35
show that algorithms can learn to charge supracompetitive prices, and even learn punishment アルゴリズムが超越的な価格を チャージし 罰を学べることを示します 0.67
strategies that enforce these prices in equilibrium. これらの価格を均衡させる戦略。 0.71
Hansen et al (2021) show that misspecified hansen et al (2021) は、誤っていたことを示している 0.46
algorithms can lead to higher prices because they overestimate their own price sensitivity. アルゴリズムは、価格の感度を過大評価するため、より高い価格につながる可能性がある。 0.57
Our analysis of risk preferences of algorithms is motivated by similar implicit behavioral implications 我々の アルゴリズムのリスク嗜好の分析は、同様の暗黙的行動的影響によって動機づけられる 0.65
of using algorithms. アルゴリズムを使います 0.65
Algorithmic confounding: The literature on algorithmic confounding, for example in Chaney アルゴリズム・コンファウンディング:例えばChaneyにおけるアルゴリズム・コンファウンディングに関する文献 0.75
et al (2018), shows that recommendation systems trained on data from users already exposed to et al (2018) は、すでに公開されているユーザーのデータに基づいてトレーニングされたレコメンデーションシステムを示している
訳抜け防止モード: et al (2018)は 既に露出しているユーザーのデータに基づいて訓練されたレコメンデーションシステム
0.74
recommendation systems can increase homogeneity and decrease utility. レコメンデーションシステムは 均質性を高め 有用性を低下させる 0.51
In essence, the algorithms 本質的には、アルゴリズムは 0.71
fail to take into account that their data reflects both user preferences and what the users were shown データがユーザーの好みと表示内容の両方を反映していることを考慮して失敗する 0.72
by the system. This leads it to homogenize towards popular options, which can be interpreted as システムによって これにより、人気オプションへの均質化が図られ、これは解釈できる。 0.66
the algorithm deciding in favour of “safer” options. オプションを選択するアルゴリズム。 0.31
We give a definition of risk aversion which 私たちはリスク回避の定義を与えます。 0.68
is independent of internal reward estimates and hence confounding. 内部報酬の見積もりとは無関係です 0.48
This means our definition is つまり私たちの定義は 0.89
more broadly applicable. より広く適用できます 0.76
Exploration-Exploita tion Tradeoffs: Our results also relate to work on the explore vs exploit 探索と探索のトレードオフ:我々の結果はexplore vs exploitの研究にも関係している 0.65
tradeoff (see Auer et al (2002)). トレードオフ (auer et al (2002)を参照)。 0.76
Algorithms which explore less can get stuck for longer in a より少ない探索を行うアルゴリズムは、長く立ち往生する可能性がある 0.67
bad reputation phase, hence exhibiting more aversion to risk. 評判が悪く、リスクへの嫌悪感が増す。 0.54
However. our analysis shows that しかし。 私たちの分析では 0.68
risk aversion is a more foundational property of how the algorithm makes choices, so making an リスク回避は、アルゴリズムがどのように選択するかという、より基礎的な特性です。 0.64
algorithm explore more cannot completely resolve its risk attitude. アルゴリズムはリスクを 完全に解決することはできません 0.78
Strategic exploration: Bandits exploring together can have strategic implications, as shown by 戦略的探究: 一緒に探索するバンドは、戦略的な意味を持つ可能性がある。 0.58
Bolton and Harris (1999). ボルトンとハリス(1999年)。 0.61
Agents may free-ride in equilibrium, leading to lower levels of exploration. エージェントは平衡で自由化され、探索のレベルが低下する。 0.64
This is related to the literature on incentivizing exploration, for example in Sellke and Slivkins これは、セールケやスライブキンスなど、探検のインセンティブ化に関する文献に関連している。 0.52
(2021). Agents can be incentivized to explore more by controlling the rate at which they get (2021). エージェントは、より多くを探索するためにインセンティブを与えることができる。
訳抜け防止モード: (2021). エージェントはインセンティブを与えることができる より多くを探索し 得られる速度を制御し
0.60
information. 4 情報だ 4 0.53
英語(論文から抽出)日本語訳スコア
3 Model A decision maker repeatedly takes one of k actions, which give her a stochastic payoff sampled identically and independently distributed from distributions Fi ∈ ∆(R), i ∈ [k]. 3モデル 意思決定者は、k の作用の1つを繰り返すことで、同値にサンプリングされ、分布 fi ∈ s(r), i ∈ [k] から独立に分配される確率的報酬を与える。 0.72
The strategy or algorithm used by the decision maker can be abstractly represented by a function π : ([k]×[0, 1])∗ → ∆([k]), which we also call policy. 決定者によって用いられる戦略やアルゴリズムは、関数 π : ([k]×[0, 1])∗ → s([k]) で抽象的に表現できる。
訳抜け防止モード: 決定者によって使用される戦略やアルゴリズムは、関数 π : ( [ k]×[0,) で抽象的に表現できる。 1])∗ → s([k ] ) であり、これはポリシー とも呼ぶ。
0.78
Different algorithms imply different π. 異なるアルゴリズムは π が異なることを意味する。 0.61
A general algorithm takes the following form. 一般的なアルゴリズムは以下の形式をとる。 0.75
For each t ∈ N, repeatedly, she chooses an action 各 t ∈ N に対して、彼女は繰り返し、作用を選択する。 0.69
At ∼ π(A1, r1, A2, r2, ..., At−1, rt−1) and gets a reward rt ∼ FAt. π(A1, r1, A2, r2, ..., At−1, rt−1) において、報酬 rt は FAt となる。 0.82
For the sake of exposition, we consider two algorithms primarily in this article. 本稿では,主に2つのアルゴリズムについて考察する。 0.67
Example (-Greedy). The -Greedy algorithm chooses the empirically best action with probability 1 − , and randomizes between all the actions with probability . 例)。 このアルゴリズムは、経験上最善のアクションを確率 1 − s で選択し、すべてのアクションの間に確率 s でランダム化する。 0.53
Thus the strategy function can be written as : 従って戦略関数は次のように書ける。 0.82
πi(A1, r1, A2, r2, ..., At−1, rt−1) = πi(A1, r1, A2, r2, ..., At−1, rt−1) = 0.41
t:At=i 1−ε |arg maxi t:At=i 1−ε |arg maxi 0.36
(cid:80) ri| (cid:80) りば 0.40
if i ∈ arg maxi i ∈ arg maxi の場合 0.92
1 |{t|At=i}| 1 |t|at=i}| 0.40
(cid:80) t:At=i (cid:80) t:At=i 0.39
ri otherwise. Example (UCB). リ さもないと 略称はUCB。 0.50
The Upper Confidence Band (UCB) algorithm derives an “optimistic” estimate アッパー信頼バンド(UCB)アルゴリズムは「最適」推定を導出する 0.79
(the upper limit of a confidence band) of the mean from the empirical mean, and then maximizes this estimate. (信頼帯の上限) 平均を経験平均から推定し、その推定値を最大化する。 0.62
Given that Ti(t− 1) samples have been observed with empirical mean ˆµi(t− 1) from action i, the estimate is: ti(t− 1) のサンプルが、作用 i から経験的平均 sμi(t− 1) で観測されたと仮定すると、推定は次のようになる。
訳抜け防止モード: Ti(t−1 ) の試料は、作用 i, からの経験的な平均 (t−1 ) で観測されている。 見積は
0.64
UCBi(t − 1, δ) = UCBi(t − 1, δ) = 0.43
(cid:114) if Ti(t − 1) = 0 (系統:114) Ti(t − 1) = 0 であれば 0.78
2 log( 1 δ ) Ti(t−1) 2 log( 1 δ ) Ti(t−1) 0.50
otherwise. ˆµi(t − 1) + さもないと 0μi(t − 1) + である。 0.54
The associated policy function is: πi(A1, r1, A2, r2, ..., At−1, rt−1) = 関連する政策機能は πi(A1, r1, A2, r2, ..., At−1, rt−1) = 0.49
|arg maxi UCBi| |arg maxi UCBi| 0.39
1 if i ∈ arg maxi UCBi(t − 1, δ) 1 i ∈ arg maxi ucbi(t − 1 δ) であれば 0.63
  ∞   ∞ 0.41
 0 otherwise.  0 さもないと 0.45
5 5 0.42
英語(論文から抽出)日本語訳スコア
We will also denote by the Gittins algortihm the theoretically optimal policy π maximizing また、ギッティンス・アルゴルティヒムは理論上最適な政策 π を最大化することを示します 0.73
∞(cid:88) δtrt. ∞(cid:88) δtrt です 0.59
We will consider at several instances 2-armed bandits and call the arms n (for non-risky) and いくつかの場合、2本腕の包帯を考慮し、腕をn(非リスキー)と呼びます。 0.45
r (for risky). r (複数形 rs) 0.50
In this case, [k] = {n, r}. この場合、[k] = {n, r} である。 0.78
The main quantities of interest is the last-iterate probability of choosing the non-risky arm 主な興味は、非リスキーアームを選択するラストイテレート確率である 0.61
t=1 P[At = n]. t=1 である。 p[at = n] である。 0.54
The probability is taken with respect to randomness in both reward and the algorithm, if the 確率は、報酬とアルゴリズムの両方におけるランダム性に関して、もしも 0.79
algorithm is randomized. アルゴリズムはランダムです 0.70
4 Cautious Algorithms 4つの慎重なアルゴリズム 0.56
Theorem 1. For any exploration rate (εt)t∈N such that εt → 0 and(cid:80)T 理論1。 εt → 0 かつ(cid:80)t となる任意の探検率 (εt)thtmln について 0.62
In this section, we show theoretically that the ε-Greedy algorithm tends to choose less risky arms. 本稿では,ε-Greedyアルゴリズムがリスクの少ないアームを選択する傾向にあることを示す。 0.76
t=0 εt → ∞, P[At = n] → 1. t=0 εt → ∞, P[At = n] → 1 である。 0.89
We note that this convergence result implies the same convergence for the expected number of この収束結果は、期待される数の同じ収束を意味することに留意する。 0.69
times the non-risky arm is chosen, 非リスキーアームが選択される回数。 0.56
E [|{t|At = n}|] → 1. E [|{t|At = n}|] → 1 である。 0.76
1 t Proof. First, observe that ε-Greedy can be written as a stochastic process of a particularly simple 1t 証明。 まず、ε-Greedy が特に単純な確率過程として書けることに注意する。 0.56
form if it uses arms n, r: 腕 n, r を使用する場合に形成する 0.77
arg maxi∈[k] arg (複数形 args) 0.33
1 |{t|At = i}| 1 |{t|At = i}| 0.45
(cid:88) t:At=i (cid:88) t:At=i 0.39
ri = Also, note that(cid:80) ri = また、 (cid:80) 0.59
t:At=i ri =(cid:80)T t:At=i ri =(cid:80)T 0.42
t=1 rt. t=1 rt である。 0.56
Hence, the quantities(cid:80)T したがって、量(cid:80)T 0.86
computation of εt-Greedy. εt-Greedyの計算 0.32
6  6  0.64
{r} {n} {r, n} r} {n} {r, n} である。 0.89
if (cid:80) if (cid:80) if (cid:80) if (cid:80) if (cid:80) if (cid:80) 0.40
t:At=i ri > 0 t:At=i ri > 0 0.46
t:At=i ri < 0 t:At=i ri < 0。 0.41
t:At=i ri = 0 t:At=i ri = 0 0.46
t=1 rt are sufficient as a state for the t=1 rt は状態として十分である 0.85
英語(論文から抽出)日本語訳スコア
Next, consider the transition distribution of XT = (cid:80)T 次に XT = (cid:80)T の遷移分布を考える。 0.85
t=1 rt. t=1 rt である。 0.56
The transition distribution of (Xt)t∈N is 転移分布 (Xt)t・Nは 0.40
X0 = 0 Xt+1 = X0 = 0 Xt+1 = 0.41
Xt xt (複数形 xts) 0.18
w.p. εt 2 + (1 − εt)(1Xt<0 + 1 2 + (1 − εt)(1Xt>0 + 1 w.p. εt 2 + (1 − εt)(1Xt<0 + 1 2 + (1 − εt)(1Xt>0 + 1 0.41
2 1Xt=0) 2 1Xt=0). 2 Xt=0) 2Xt=0)。 0.55
Xt + xt w.p. εt Xt + xt w.p. εt 0.41
(1) where x ∼ Rademacher independently across time. (1) ここで x はRademacher は時間とともに独立している。 0.44
We will call the process (Xt)t∈N “the” lazy random walk. この過程を (Xt)t・N “the” 遅延ランダムウォークと呼びます。 0.64
We first observe that the probability that this process is positive is related to まず、この過程が正であることの確率が関連することを観察する。 0.66
ε-Greedy choosing the non-risky arm. ε-グリーディは非リスキーアームを選択する。 0.42
Claim 1. P[Xt ≤ 0] → 1 as t → ∞ =⇒ P[At = n] → 1. クレーム1。 P[Xt ≤ 0] → 1 を t → ∞ = → P[At = n] → 1 とする。 0.72
Proof. First, observe that as (cid:80)T 証明。 まず、(cid:80)Tとして観察する。 0.63
surely, which means that P[Xt = 0] → 0. つまり P[Xt = 0] → 0 となる。 0.63
t=0 εt → ∞, the lazy random walk steps infinitely often almost t=0 εt → ∞, 怠け者のランダムウォークは無限に歩み寄る。 0.68
Furthermore, note that P [At = n|Xt < 0] ≥ 1 − εt/2. さらに、P[At = n|Xt < 0] ≥ 1 − εt/2 である。 0.81
Thus, P [At = n] ≥ P [At = n, Xt < 0] = P [At = n|Xt ≤ 0]P [Xt < 0] ≥ (1 − εt/2)P [Xt < 0]. したがって、P[At = n] ≥ P[At = n, Xt < 0] = P[At = n|Xt ≤ 0]P[Xt < 0] ≥ (1 − εt/2)P[Xt < 0] である。 0.96
Since εt → 0and P [Xt < 0] − P [Xt ≤ 0] → 0, the claim follows. εt → 0 と P [Xt < 0] − P [Xt ≤ 0] → 0 であるから、主張は従う。 0.90
It is hence sufficient to show P[Xt > 0] → 0. したがって、P[Xt > 0] → 0 を示すのに十分である。 0.80
Define the time since the last passing time of zero as τ T 0 0 の最後の通過時間から τ t 0 として時間を定義する 0.89
St(cid:48), where St(cid:48) ∼ Bernoulli(1 − 1 St(cid:48) ここで、St(cid:48) は Bernoulli(1 − 1) 0.81
0 :=(cid:80)t 0 :=(cid:80)t 0.47
St t(cid:48)=τ t St t(cid:48)=τ t 0.42
0 := max{t ≤ T|Xt = 0}. 0 := max{t ≤ t|xt = 0} である。 0.62
Define 2 εt(cid:48)) the number of times the lazy random walk steps 2 εt(cid:48))遅延ランダムウォークの回数を定義する 0.65
if it is positive. Let (Ht)t∈N be a standard random walk. 肯定的ならね Ht)t~N を標準的なランダムウォークとする。 0.48
Claim 2. P[Xt > 0] = P[Ht(cid:48) > 0, t(cid:48) = 1, 2, . . . , St 0]. 第2話。 P[Xt > 0] = P[Ht(cid:48) > 0, t(cid:48) = 1, 2, . . , St 0]. 0.41
Proof. We have that Xt > 0 ⇐⇒ Xt(cid:48) > 0, t(cid:48) = τ t 証明。 我々には Xt > 0 > Xt(cid:48) > 0, t(cid:48) = τ t 0.59
0 + 1, τ t ⇐⇒ Ht(cid:48) > 0, t(cid:48) = 1, 2, . . . , St 0. 0 + 1, τ t , ht(cid:48) > 0, t(cid:48) = 1, 2, . . , st 0。 0.44
0 + 2, ..., t 0 + 2, ..., t 0.37
The first line comes from the definition of τ t 最初の行は τ t の定義に由来する。 0.89
it steps St 0 times from t(cid:48) = τ t 階段を踏んで 0倍, t(cid:48) = τ t。 0.62
0. For the second line, note that Xt(cid:48) > 0 implies that 0 to t(cid:48) = t. 2行目では、xt(cid:48) > 0 が 0 to t(cid:48) = t を意味することに注意。
訳抜け防止モード: 0です。 2行目は xt(cid:48 ) > 0 は 0 から t(cid:48 ) = t へのことを意味する。
0.83
This is because the risky arm is favored in this region and これはリスクの高い腕が この地域で好まれているからです 0.67
7 7 0.42
英語(論文から抽出)日本語訳スコア
hence the safe arm is chosen with 1 したがって 安全アームは 1で選択され 0.81
2 εt(cid:48) probability, which is when the process does not step. 2 εt(cid:48)確率である。 0.37
This is equivalent to a standard random walk remaining above 0 for St これ st の 0 以上の標準ランダムウォークと同値です 0.62
0 periods. Claim 3. 0期であった。 第3話。 0.38
t − τ t t − τ t である。 0.66
0 P−−−−→ T→∞ ∞ 0 P−−−−−→T→∞ ∞ 0.31
Proof. We would like to show: 証明。 お見せしたいのは 0.51
∀c > 0, δ > 0 : ∃t ∈ N∀t(cid:48) ≥ t : P[t − τ t σc > 0, δ > 0 : σt ∈ n\t(cid:48) ≥ t : p[t − τ t 0.37
0 ≤ c] ≤ δ. 0 ≤ c] ≤ δ である。 0.88
Fix any c and any δ > 0. 任意の c と任意の δ > 0 を固定する。 0.70
Then: P[t − τ t すると P[t − τ t 0.47
0 ≤ c] = P[∃t(cid:48) ∈ {t − c, t − c + 1, ..., t} : Xt(cid:48) = 0] 0 ≤ c] = P[\t(cid:48) ∈ {t − c, t − c + 1, ..., t} : Xt(cid:48) = 0]
訳抜け防止モード: 0 ≤ c ] = P[\t(cid:48 ) ∈ { t − c} である。 t − c + 1 , ... , t } : Xt(cid:48 ) = 0 ]
0.92
≤ t(cid:88) ≤ t(cid:88) ≤ t(cid:88) ≤ t(cid:88) 0.43
t(cid:48)=t−c t(cid:48)=t−c 0.32
t(cid:48)=t−c t(cid:48)=t−c 0.32
P[Xt(cid:48) = 0] P[Xt(cid:48) = 0] 0.49
(cid:110)P(cid:104) (cid:18) l (cid:110)P(cid:104) (cid:18)l 0.38
(cid:19) (cid:12)(cid:12)(cid :12)|{s ∈ [τ t(cid:48) (cid:19) (cid:12)(cid:12)(cid :12)|{s ∈ [τ t(cid:48) 0.41
(cid:105) 0 , t(cid:48)]|Xs+1 − Xs (cid:54)= 0}| ≥ κ (cid:105) 0 , t(cid:48)]|Xs+1 − Xs (cid:54)= 0}| ≥ κ 0.45
Xt(cid:48) = 0 Xt(cid:48) = 0 0.46
+ P[|{s ∈ [τ t(cid:48) + p[|{s ∈ [τ t(cid:48)) である。 0.82
(cid:111) 0 , t(cid:48)]|Xs+1 − Xs (cid:54)= 0}| < κ] (cid:111) 0 , t(cid:48)]|Xs+1 − Xs (cid:54)= 0}| < κ] 0.46
≤ c max l∈[κ,T ] ≤ c max lψ[κ,t ] 0.44
+ cP(cid:104)∃m ≥ t − τ t + cP(cid:104) ≥ t − τ t 0.46
2−l l 2 0 κ 2-l l2 0 κ 0.36
∧ n ∈ [τ t n ∈ [τ t である。 0.68
0, t − m] (cid:12)(cid:12)(cid :12)Xn = Xn+1 = ... = Xn+m 0, t − m] (cid:12)(cid:12)(cid :12)xn = xn+1 = ... = xn+m 0.38
(cid:105) For the first inequality, we use the fact that the probability can be split into two, one conditioning (定員105名) 第一の不等式については、確率が2つの条件に分割できるという事実を用いる。 0.61
on an event A and the other conditioning on its complement Ac, and then replace the latter with イベントAと、その補集合であるAcを条件付けし、その後、後者を置き換える 0.63
the probability of Ac. For the second, the first term just replaces each term in the sum with the 交流の確率。 第2項では、第1項は、和の各項を単にその項に置き換えるだけである。 0.47
largest element of the sum. 合計の最大の要素です 0.67
The second term uses the pigeonhole principle, since the event that Xt steps at most κ times for t − τ 0 sequence of length t−τ 0 第2項は、長さ t − τ 0 の t − τ 0 列に対して、Xt が最大 κ 回ステップするからである。 0.73
t periods is the same as saying that there is at least one continuous t期は少なくとも1つの連続性があると言うのと同じです 0.71
that does not step. t それは歩けない。 t 0.43
κ 1√ lπ = c√ κ 1~lπ (=c) 0.31
κπ ≤ c√ (t−c)π κπ ≤ c>(t−c)π 0.39
→ By Stirling’s approximation, the first term is approximately c maxl∈[κ,T ] → スターリングの近似により、最初の項はおよそ c maxljava[κ,t ] である。 0.59
0. For the second term, 8 0. 2期目は 8 0.42
英語(論文から抽出)日本語訳スコア
(cid:12)(cid:12)(cid :12)Xn = Xn+1 = ... = Xn+m (cid:12)(cid:12)(cid :12)xn = xn+1 = ... = xn+m 0.34
(cid:105) 0, t − m] (定員105名) 0, t − m] 0.47
cP(cid:104)∃m ≥ t − τ t (cid:89) (cid:88) which goes to zero given that(cid:80) cp(cid:104)\m ≥ t − τ t (cid:89) (cid:88) は 0 となる。 0.77
≤ c exp ≤ c ≤ c exp ≤c 0.40
0 ∧ n ∈ [τ t (1 − εs(cid:48)) s(cid:48)∈{s,s+1,. 0 n ∈ [τ t (1 − εs(cid:48)) s(cid:48) ∈{s,s+1, である。 0.63
.,s+ t κ} κ s(cid:48)∈{s,s+1,. s+ t κ} κ s(cid:48)ftp{s,s+1, である。 0.46
.,s+ t κ} εt = ∞. s+ t κ} εt = ∞ である。 0.52
εs(cid:48) εs(cid:48) 0.37
Claim 4. St 0 P−−−→ t→∞ ∞. 第4話。 セント0 P−−−−→ t→∞ ∞。 0.52
t Proof. Fix c, δ > 0. t 証明。 c, δ > 0 を固定する。 0.61
By Claim 3, we can choose t(cid:48) such that for any t ≥ t, t − τ t probability at least δ/2. Claim 3 により、任意の t ≥ t に対して t − τ t 確率が少なくとも δ/2 であるような t(cid:48) を選択することができる。 0.72
Choose t large enough such that εt(cid:48)(cid:48)/2 ≤ κ := 2 c which is possible as εt → 0. εt(cid:48)(cid:48)/2 ≤ κ := 2 c で εt → 0 となるような大きい t を選択する。 0.86
Then, as at most c zero draws of the Bernoulli random variable need to happen between t − c and t, whose probability is bounded by κ, we can bound すると、ベルヌーイ確率変数の最大cゼロの描画が t − c と t の間に起こる必要があるので、確率は κ で有界である。 0.71
(cid:1) for t(cid:48) ≥ t − 2c, (cid:1) t(cid:48) ≥ t − 2c に対して 0.76
0 > 2c with 0 >2cであった。 0.52
c (cid:113) δ/(cid:0)2c c (cid:113) δ/(cid:0)2c 0.39
P[St (cid:18)2c (cid:19) 0 ≤ c] ≤ δ/2 + P[St 0 ≤ c|t − τ t (cid:18)2c (cid:19) P[St] (cid:18)2c (cid:19) 0 ≤ c] ≤ δ/2 + P[St 0 ≤ c|t − τ t (cid:18)2c (cid:19) 0.42
≤ δ/2 + κc ≤ δ/2 + κc 0.39
c = δ/2 + κc c = δ/2 + κc 0.40
c 0 > 2c] = δ. c 0 > 2c] = δ. 0.45
This concludes the proof. Claim 5. これが証明となる。 クレーム5。 0.63
For any x ∈ N≥0 任意の x ∈ N≥0 に対して 0.58
P[Ht = y, Ht(cid:48) > 0, t(cid:48) = 1, 2, . . . , t] = P[Ht = y, Ht(cid:48) > 0, t(cid:48) = 1, 2, t] = . 0.43
and therefore P[Ht(cid:48) > 0, t(cid:48) = 1, 2, . . . , t] = ですから p[ht(cid:48) > 0, t(cid:48) = 1, 2, . . , t] = 0.53
E[|Ht|] t yP[|Ht| = y] E[|Ht|] t yP[|Ht| = y] 0.45
. t . Proof. Suppose that Ht = y > 0. . t . 証明。 Ht = y > 0 とする。 0.52
Let Nt(x, nt(x,) とする。 0.41
y) be the number of ways to get from (0, y) (0, から取得する方法の数 0.59
x) to (t, y). x) to (t, y)であった。 0.45
Note that the event E = {Ht = y, Ht(cid:48) > 0, t(cid:48) = 1, 2, . . . , t} has happened iff the random walk イベント e = {ht = y, ht(cid:48) > 0, t(cid:48) = 1, 2, . . . , t} がランダムウォークを満たしていることに注意せよ。 0.77
9 9 0.42
英語(論文から抽出)日本語訳スコア
stays on the same side of 0 in the interval [1, t]. 間隔 [1, t] で 0 の同じ側に留まる。 0.68
Let N denote the number of ways to do this, and π = P(E|St = y). N はこの方法の数を表し、π = P(E|St = y) とする。
訳抜け防止モード: これを行う方法の数を N で表す。 π = P(E|St = y ) である。
0.84
Then π = N total number of ways is y すると π = n 個の和は y である。 0.77
n by the Reflection Principle. n は反射原理によって表される。 0.54
As a result, the 2 (t− y) leftward steps. その結果、2つの(t−y)ステップが左に進む。 0.77
2 (t + y) rightward steps and 1 2(t + y) 右のステップと1 0.83
t Nt(0, y), and each has 1 t Nt(0, y) でそれぞれ 1 である。 0.83
Nt(0,y) , but also π = y nt(0,y) だけでなく π = y も含む。 0.85
Therefore P[Ht = y, Ht(cid:48) > 0, t(cid:48) = 1, 2, . . . , t] = そのため P[Ht = y, Ht(cid:48) > 0, t(cid:48) = 1, 2, t] = . 0.59
Nt(0, y)p 1 Nt(0, y)p 1 0.43
2 (t+y)q 1 2 (t+y)q 1 0.43
2 (t−y) = y t 2(t−y)= y t です。 0.49
yP[|Ht| = y] yP[|Ht| = y] 0.49
t Summing over y gives the second equation. t y 上の和は第二の方程式を与える。 0.48
The asymptotics of the absolute value of a random walk are well understood: ランダムウォークの絶対値の漸近性はよく理解されている。 0.61
E[|Ht|]√ e[|ht|] である。 0.63
t = lim t→∞ t = lim t→∞ 0.40
(cid:114) 2 . (系統:114)2 . 0.54
π See, e g , Weisstein (2002), and references therein. π e g , Weisstein (2002) を参照。 0.48
This implies for large enough t that Claim 6. これは、十分大きい t に対して 6 を主張することを意味する。 0.56
There is a constant C > 0 such that P[Ht(cid:48) > 0, t(cid:48) = 1, 2, . . . , t] ≤ Ct− 1 2 . P[Ht(cid:48) > 0, t(cid:48) = 1, 2, . , t] ≤ Ct− 1 2 となるような定数 C > 0 が存在する。 0.88
Let δ > 0. δ > 0 とする。 0.89
Set c := c := をセットする。 0.57
and δ(cid:48) := δ および δ(cid:48) := δ 0.93
2 . We find that with probability at least 1 − δ(cid:48) = δ 2 , 2 . 確率は少なくとも 1 − δ(cid:48) = δ 2 である。 0.57
√ 2√ δ St 0 > c = (2/ε)1/2. √ 2√ δ St 0 > c = (2/ε)1/2。 0.45
In particular, P[Xt > 0] ≤ P[t − τ t 特に P[Xt > 0] ≤ P[t − τ t 0.39
≤ ε 2 ε = 2 ≤ ε 2 ≤ ε 2 ≤ ε 2 ≤ ε 2 ε = 2 ≤ ε 2 ≤ ε 2 ≤ ε 2 0.42
0 − St 0 − St ≤ 0|t − τ t 0 − St 0 − St ≤ 0|t − τ t 0.50
0 > (2/ε)1/2]E[Xt ≤ 0|t − τ t 0 > (2/ε)1/2] 0 − St 0 > (2/ε)1/2]E[Xt ≤ 0|t − τ t 0 > (2/ε)1/2] 0 − St 0.42
0 > (2/ε)1/2] 0 > (2/ε)1/2] 0.39
0 − St 0 > (2/ε)1/2] 0 − St 0 > (2/ε)1/2] 0.41
0−St 0 ≤ (2/ε)1/2] + P[t − τ t ≤ 0|t − τ t )E[Ht−τ t )E[H1, H2, . . . Ht−τ t )E[H1, H2, . . . H(cid:98)(2/ε)1/2(cid:99) ≤ 0] 0-St 0 ≤ (2/ε)1/2] + P[t − τ t ≤ 0|t − τ t )E[Ht−τ t )E[H1, H2, . . Ht−τ t )E[H1, H2, . . H(cid:98)(2/ε)1/2(cid:99) ≤ 0] 0.35
0 − St + (1 − ε 2 + (1 − ε 2 + (1 − ε 2 + E[H1, H2, . . . H(cid:98)(2/ε)1/2(cid:99) ≤ 0] 0 − St + (1 − ε 2 + (1 − ε 2 + (1 − ε 2 + E[H1, H2, . . . H(cid:98)(2/ε)1/2(cid:99) ≤ 0] 0.48
0 0−St 0 + 0 0-St 0 + 0.38
ε 2 = ε. This demonstrates convergence. ε 2 = ε. これは収束を示す。 0.49
Several comments are in order: いくつかのコメントが整っている。 0.49
First, the theorem only considers a 2-armed bandit with one deterministic and one Rademacher- 第一に、この定理は1つの決定論的かつ1つのラデマッハを持つ2つの腕のバンディットのみを考える- 0.42
distributed arm. The extension to a non-deterministic arm with a more general distributions is 分散アーム。 より一般的な分布を持つ非決定論的アームの拡張は 0.67
possible but requires different techniques, in particular in the application of the reflection principle. 可能であるが、特に反射原理の適用には異なる技術が必要である。 0.81
10 10 0.42
英語(論文から抽出)日本語訳スコア
On the other hand, the proof does not straightforwardly generalize to two ordered arms, e g 一方、証明は直接的に2つの順序付けられた腕に一般化するわけではない。 0.65
in an order of second-order stochastic dominance, or for normally distributed reward distributions 2階の確率的支配の順序、または通常分配された報酬分布 0.71
with identical expectation, but different standard deviation. 期待値は同じですが 標準偏差は異なります 0.74
The reason for this is that the proof その理由はその証拠である。 0.68
technique relies on the fact that the unnormalized sum of rewards is a sufficient state for the 技術は、報酬の正規化されていない合計が、報酬の十分な状態であるという事実に依存している
訳抜け防止モード: 技術は 報酬の正規化されていない合計は、十分な状態である
0.65
algorithm. Failure modes of the theorem play into when the algorithm explores too much or too little. アルゴリズム。 定理の失敗モードは、アルゴリズムが探索しすぎるか小さすぎるかによって引き起こされる。 0.72
If εT does not go to zero, full risk aversion is impossible. もしも εT はゼロではなく、完全なリスク回避は不可能である。 0.64
However, also the difference in the “laziness” しかし、その「怠けさ」の相違点もある。 0.56
identified in the algorithm becomes not arbitrarily strong. アルゴリズムで特定された値は、任意に強くならない。 0.52
Hence, large exploration making risk- そのため、大規模な探検はリスクをもたらす。 0.46
aversion weaker. Too little exploration might lead to cases, for example, where the algorithm 逆転はより弱く 探索が少なすぎると、たとえばアルゴリズムがケースにつながるかもしれない 0.69
commits to an arm after a finite time. 有限時間後に腕にコミットする。 0.61
Still, the reduction to a random walk gives clear intuition for algorithms that rely on estimates それでも、ランダムウォークの削減は、推定に依存するアルゴリズムに対する明確な直感を与える 0.68
of action quality. The estimate of the advantage of the risky arm is a lazy random walk which 行動の質です リスクの高いアームの利点の見積は、怠け者のランダムウォークである。 0.55
is “lazier” when the non-risky arm has advantage. 非リスキーアームの利点は“怠け者(lazier)”だ。 0.58
This abstract quality can be observed in more この抽象的な品質はもっと観察できる 0.88
complex environments, which we discuss in subsection 6.2. 第6条2項で論じる複雑な環境です 0.64
5 Experiments We run simulations to support our theory. 5 実験 私たちは理論を支えるためにシミュレーションを実行します。 0.71
First, we consider convergence rates of two popular bandit algorithms facing a deterministic and まず,決定論的手法に直面する2つの一般的なバンディットアルゴリズムの収束率について検討する。 0.53
and a stochastic arm. Then, we calibrate an experiment to a recommendation system application, 確率的な腕も そして、レコメンデーションシステムアプリケーションに対して実験を調整します。 0.45
and derive economic inefficiencies arising in this environment. この環境に生じる経済的不効率を 引き起こします 0.71
Our experiments use ε-Greedy (with exploration rate t− 1 ε-Greedy (探査速度t-1) を用いた実験 0.64
2 ) and UCB (with δ parameter growing 2) および UCB (δ パラメータの増大) 0.83
at log(1 + t log2(t)). log(1 + t log2(t)) において。 0.90
5.1 Synthetic data First, we illustrate the risk aversion of ε-Greedy and UCB in a simple bandit setting. 5.1 合成データ まず,単純なバンディット設定において,ε-greedy と ucb のリスク回避を示す。 0.70
In our experiments, we use a deterministic reward of 0 and a Rademacher distributed reward. 私たちの中では 実験では、0の決定論的報酬と、Rademacher分散報酬を用いる。 0.57
We estimate the mean probability of choosing a particular arm by averaging 1,000 runs of ε-Greedy and UCB 推定すると ε-グレディとUCBの1000ランを平均して特定の腕を選択する確率 0.68
for rounds t = 1 to 1, 000 rounds. ラウンド t = 1 から 1,000 のラウンド。 0.58
We use a Savitzky-Golay filter to smoothen the outcomes. 結果のスムーズ化にはSavitzky-Golayフィルタを用いる。 0.71
The results are represented in Figure 2. その... 結果は図2に示されます。 0.49
11 11 0.42
英語(論文から抽出)日本語訳スコア
(a) -Greedy (a)シュ=グレディ 0.48
(b) UCB Figure 2: The probability of choosing the risky arm over time with no bias. (b) UCB 図2: バイアスなく、リスクの高いアームを時間とともに選択する確率。 0.61
As established by our theoretical result, ε-Greedy behaves perfectly risk averse, choosing the 我々の理論的結果によって確立されたように、ε-欲望は完全なリスク回避行動を行い、選択する。 0.40
risky arm with a small and decreasing probability. リスクの高い腕で 確率は小さく 確率も低い 0.68
We find that UCB has an imperfect risk aversion, UCBには不完全なリスク回避がある。 0.68
plateauing at a choice of about 46% for the risky arm. リスクのある腕の46%を 選別します 0.54
Second, we show that this risk behaviour exists transiently even when the arms do not have the 第二に、腕が持たない場合でも、この危険行動が過渡的に存在することを示す。
訳抜け防止モード: 第二に、私たちは この危険行動は 腕が持たなくても 過渡的に存在します
0.74
same expected reward. We consider biases favoring the risky arm from b = 0.1 to 1. 期待どおりの報酬だ 危険腕を b = 0.1 から 1 まで好むバイアスを考える。 0.69
This means that we are comparing an arm with deterministic reward −b to a Rademacher distributed arm. これは、決定論的報酬-bとRademacher分散アームを比較することを意味する。 0.63
Figures 3 and 4 and show the results. 図3と4は、結果を示します。 0.86
For small biases, risk aversion can persistent for quite a large 小さなバイアスの場合、リスク回避はかなり大きな場合があります 0.75
number of time periods. For bigger biases, the effect is small, as we would expect. 一定期間の時間です より大きなバイアスに対して、この効果は期待したほど小さい。 0.63
Figures 3 and 4 also give us an idea of the certainty equivalents for the algorithms for different 図3と4はまた、異なるアルゴリズムに対する確実な等価性の概念を与えてくれる。 0.81
times. The heatmaps identify the probability of choosing the risky arm for each pair (b, t), except at (b, t) such that P[At = r] ≈ 1 2 , where that color is black. 時間だ ヒートマップは、(b, t) において、その色が黒である p[at = r] が 1 2 であるような (b, t) を除いて、各ペア (b, t) に対してリスクの高いアームを選択する確率を特定する。
訳抜け防止モード: 時間だ ヒートマップは、各ペア (b, t ) に対して危険腕を選択する確率を特定する。 ただし、(b, t ) において P[At = r ] > 1 2 である。 その色は黒です。
0.68
At such (b, t), the algorithm is indifferent between the two arms, so that the bias at that specific time period corresponds to a そのような場合(b, t)、アルゴリズムは両腕の間に無関心であり、その特定の期間におけるバイアスはaに対応する。 0.75
notion of certainty equivalent for the algorithm for that time period. その期間のアルゴリズムに相当する 確実性の概念です 0.70
As can be seen from the heatmap, lower time periods correspond to a higher certainty equivalent, while as time progresses から見えるように ヒートマップ、低い時間周期はより高い確実性に相当するが、時間が進むにつれて 0.55
the certainty equivalent decreases towards zero, as would be predicted by no regret. 確実性はゼロに向かって減少します 後悔なしの予測です 0.58
But the certainty equivalent is persistently positive, which is what our theory of risk aversion predicts. しかし 確実性は持続的に正であり リスク回避の理論が予測するものです 0.61
12 12 0.42
英語(論文から抽出)日本語訳スコア
(a) Probability of choosing risky over time (a)時間とともに危険を選択する可能性 0.69
(b) Certainty equivalents Figure 3: -Greedy with bias b)不確実性等価物 図3: 偏見のある欲求 0.61
(a) Probability of choosing risky over time (a)時間とともに危険を選択する可能性 0.69
(b) Certainty equivalents Figure 4: UCB with bias b)不確実性等価物 図4:バイアスのあるucb 0.68
13 13 0.85
英語(論文から抽出)日本語訳スコア
5.2 Calibration to a recommendation system 5.2 推薦制度の校正 0.81
A major application of bandit algorithms is in recommendation systems, for example on stream- banditアルゴリズムの主な応用は、例えばストリームにおけるレコメンデーションシステムである。 0.63
ing sites where they make content recommendations based on user profile and content desirability. ingサイトは、ユーザープロフィールとコンテンツの望ましさに基づいてコンテンツレコメンデーションを作成する。 0.68
Since deployed recommendation systems and their data are proprietary, we simulate a simple rec- デプロイされたレコメンデーションシステムとそのデータはプロプライエタリであるため、簡単なレコメンデーションをシミュレートする。 0.51
ommendation system that illustrates the points that we would like to illustrate. オンメンデーションシステムは、私たちが説明したいポイントを図示します。 0.65
The system faces a large number of users, each of whom interact with the system for several time periods. システムの顔は 多数のユーザで、それぞれが複数の時間にわたってシステムと対話します。 0.79
In our main run, we choose that they interact for T = 10, 000, which is a conservative upper bound on the 私たちの中では メインランでは、それらは T = 10 000 で相互作用するが、これは保守的な上界である。 0.53
pieces of content that, for example, a user in spotify can interact with.1 例えば、スポプティファイのユーザが.1と対話できるコンテンツの一部 0.57
We consider two types of 私たちは2つのタイプの 0.65
content, which we call m movies and s series. コンテンツは「M映画」と「Sシリーズ」です 0.64
The system maximizes a continuous-valued measure システムは連続値測度を最大化する 0.71
of content consumption, which is heterogenous among users. ユーザー間で異質なコンテンツ消費のことです 0.61
We consider users that have a personal preference for a type of content, xi,j ∼ N (0, 1) independently across users and content types. ユーザとコンテンツタイプ間で独立して,コンテンツタイプxi,j,n(0,1)の個人的好みを持つユーザを考える。 0.68
The system gets a feedback xi,j + i,j,t from serving content システムはコンテンツの提供からフィードバック xi,j + si,j,t を得る 0.79
j to user i in time period t. j からユーザ i までの期間 t。 0.74
Users also have a person-and-content specific content preference, which ユーザーは個人とコンテンツに特有なコンテンツを好む。 0.77
we assume to be independently N (0, diag(σs, σm))-distributed, where σs, σm > 0. 独立に N (0, diag(σs, σm))-分布であると仮定し、σs, σm > 0 となる。 0.84
We operational- ize that series give a more divisible and faster feedback by assuming that σs < σm. 運用中- この級数は σs < σm と仮定してより分割可能でより速いフィードバックを与える。 0.60
Hence, movies are riskier content than series. そのため、映画 シリーズよりもリスクの高いコンテンツです 0.75
This can be expanded to a random utility function これはランダムなユーティリティ関数に拡張できます 0.83
u(j; i) = xi,j + i,j u(j; i) = xi,j + si,j 0.42
where agents are assumed to choose content of type m if and only if u(m; i) > u(s; i). ここでエージェントがタイプ m のコンテンツを選択すると仮定するのは u(m; i) > u(s; i) である。 0.73
We run our simulations for T = 10, 000 rounds, and estimate population demand for 1, 000 T = 10, 000ラウンドのシミュレーションを実行し、人口需要を1, 000ラウンドと見積もる。 0.75
users. Our results are shown in Figure 5. ユーザー。 結果が図5に示されています。 0.73
Series, which is the less risky content, is shown 5% more リスクの低いコンテンツであるシリーズは5%増加しています 0.69
to users than are movies. 映画よりもユーザーに対してです 0.66
5.3 Economic Interpretation The algorithm’s risk bias can artificially reduce consumer surplus, even if it is not in the interest of 5.3 経済解釈 アルゴリズムのリスクバイアスは、たとえ関心がないとしても、消費者の余剰を人工的に削減できる 0.77
the deployer to do so. Since there is no inherent bias in consumer preference for either content in 展開機はそうする いずれのコンテンツも消費者の嗜好に固有のバイアスがないため 0.57
our model, if users are free to make their choice of content, the market shares of each content would 私たちのモデルでは、ユーザーが自由にコンテンツを選ぶことができるなら、それぞれのコンテンツの市場シェアは 0.85
1Considering data from 2020 hou (2020), users on netflix watch 10 movies and 2 series per month. 2020 hou (2020)のデータによると、netflixのユーザーは毎月10本の映画と2本のシリーズを見る。 0.75
Assuming that each was selected from a roster of 100 pieces of content, this leads to about 1,000 pairwise comparisons. 仮定すると それぞれが100のコンテンツのロスターから選択され、約1000のペアで比較される。
訳抜け防止モード: 仮定すると それぞれ100個のコンテンツから選ばれました これは約1000対の 比較につながります
0.66
14 14 0.42
英語(論文から抽出)日本語訳スコア
(a) -Greedy (a)シュ=グレディ 0.48
(b) UCB Figure 5: Probability of showing the risky content over time (b) UCB 図5:リスクのあるコンテンツを時間とともに示す可能性 0.60
be 0.5. However in our simulations we find that the market share of series content is 10% larger. 0.5です しかし、シミュレーションでは、シリーズコンテンツの市場シェアが10%大きいことが判明した。 0.78
This means that the algorithm is choosing an outcome misaligned with consumer welfare, which これは、アルゴリズムが消費者福祉とミスアライメントした結果を選択することを意味する。 0.61
is maximized when market share is in expectation the same across both content. 両方のコンテンツで市場シェアが同じになると 最大化されます 0.69
This consumer surplus effect can be even larger in the long term if dissatisfied consumers were to leave the service, この消費者 不満な消費者がサービスを離れる場合、長期的な余剰効果はさらに大きくなる可能性がある。 0.77
especially in extremely concentrated industries such as the streaming industry. 特にストリーミング産業のような非常に集中した産業では 0.81
Our calibration is not rich enough to determine the effects on consumer surplus of such selection, but we view this as 私達の校正は このような選択が消費者の余剰分に与える影響を判断するには不十分ですが 0.68
an attractive area for future research. 将来の研究の魅力的な領域です 0.74
This also raises question of algorithmic fairness. これはアルゴリズムの公平性にも疑問を呈する。 0.59
The algorithm’s risk bias is skewing the market アルゴリズムのリスクバイアスは市場を歪めている 0.73
share towards content that it has an inherent bias for, i.e. it is creating its own market rather than 固有のバイアスを持つコンテンツ、すなわち、独自の市場を創造しているコンテンツに対して共有すること。 0.73
catering to the existing market. As with other questions tackled by the field of algorithmic fairness, 既存市場への参入。 アルゴリズム的公平さの分野が取り組んだ他の質問と同様に。 0.63
this bias can perpetuate one section of society and culture at the expense of others. このバイアスは 社会と文化の 一部を永続させる 他を犠牲にして 0.56
If it is the case that less risky content is also culturally dominant and over-represented, then over time, the fact もしそうなら リスクの少ないコンテンツは 文化的に支配的であり 過剰に表現され 0.49
that the algorithm prefers one content over the other can lead to exit by agents who consume the アルゴリズムが他のものよりも1つのコンテンツを好むと エージェントがそれを消費する 0.63
marginalized content, or they could even be forced to modify their tastes to match the algorithm’s 限界化されたコンテンツや、アルゴリズムに合わせて好みを変えることさえできるかもしれない。
訳抜け防止モード: コンテンツを極端に制限したり 強制される可能性もあります 味を変えたり アルゴリズムにマッチする
0.74
preference. In either case, this would reinforce the algorithm’s risk bias and lead to an even larger 好みだ いずれにせよ、これによってアルゴリズムのリスクバイアスが強化され、さらに大きくなる。 0.56
bias towards the less risky content. リスクの低いコンテンツに対する偏見です 0.65
In the long run, this can artificially create and perpetuate 長期的には 人工的に生成し 持続させます 0.71
homogeneity amongst users, often at the cost of marginalized sections. ユーザー間の均質性、しばしばマージン化セクションのコストで。 0.75
15 15 0.43
英語(論文から抽出)日本語訳スコア
6 Extensions 6.1 Decision theory for Algorithms 6つの拡張 6.1 アルゴリズムの決定理論 0.72
It is natural to think about algorithm behaviour directly through preferences first rather than アルゴリズムの振る舞いについて、まず選好を通じて考えるのは自然です。 0.55
risk attitudes, since the former are more fundamental in standard theory. 前者は標準理論においてより基本的なものである。 0.68
However, any attempt to しかし、どんな試みでも 0.67
formulate a decision theory for algorithms runs into immediate complications. アルゴリズムの決定理論を定式化するとすぐに複雑になる。 0.73
Consider two lotteries l1 = 0.21{1} + 0.61{0} + 0.21{−1} and l2 = 0.21{2} + 0.61{0} + 0.21{−2}. l1 = 0.21{1} + 0.61{0} + 0.21{−1} と l2 = 0.21{2} + 0.61{0} + 0.21{−2} を考える。 0.74
Clearly l2 (cid:31)SOSD l1, but most algorithms like -Greedy will not differentiate between the two, due to normalization of the 明らかに l2 (cid:31)SOSD l1 であるが、シュ=グレディのようなほとんどのアルゴリズムは正規化のため両者を区別しない。 0.59
reward estimates. Defining a revealed preference of some sort can in fact run into fundamental contradictions, in 報酬の見積り。 ある種の明らかな選好を定義することは、実際には根本的な矛盾に陥ることがある。 0.59
particular with transitivity. 特に輸送性についてです 0.41
For example, suppose we define it in the following manner: 例えば、次のように定義します。 0.53
Definition. We say that an algorithm (strictly) prefers arm i over arm j at time t, i.e. j (cid:31)π,t i, if 定義。 アルゴリズムは(厳密には)時 t においてアーム j よりもアーム i を好む、すなわち j (cid:31)π,t i である。
訳抜け防止モード: 定義。 アルゴリズム(厳密には)は時間 t において、arm j よりも arm i を好むと言う。 j (cid:31)π , t i, if
0.60
P[At = j] > P[At = i] P[At = j] > P[At = i] 0.43
Then we can run into trouble quite quickly: すると、すぐに問題にぶつかることができます。 0.52
Proposition. Proposition 0.23
When π = ε-Greedy for small ε and t = 3, (cid:31)π,t is intransitive. π = ε-greedy for small ε and t = 3 (cid:31)π,t は非推移的である。 0.81
Proof. Consider three lotteries l1 = 1{−0.01}, l2 = 0.511{1} + 0.491{−1} and l1 = 0.341{1} + 0.331{−0.02} + 0.331{−1}. 証明。 l1 = 1{−0.01}, l2 = 0.511{1} + 0.491{−1} および l1 = 0.341{1} + 0.331{−0.02} + 0.331{−1} を考える。 0.67
It is straightforward to check that with this definition, l1 (cid:31) l3 (cid:31) l2 (cid:31) l1 for -Greedy when  is small. この定義で l1 (cid:31) l3 (cid:31) l2 (cid:31) l1 が小さくなると、これは単純である。 0.78
Moreover, even if it is possible to derive a preference ordering, it could fail to satisfy the implica- さらに、たとえ選好順序を導出できるとしても、単純さを満たせない可能性がある。 0.61
tions of standard theories. For example, consider Expected Utility Theory. 標準理論の定式化。 例えば、期待される効用理論を考える。 0.74
Independence requires that mixing another lottery to two lotteries shouldn’t change their relative ordering. 独立には 2つの宝くじに別の宝くじを混ぜることは、相対的な順序を変えるべきではない。 0.56
However mix- ing a complicated lottery to the comparison between a simple lottery and a fixed reward could しかし、mix- 簡単な宝くじと固定報酬を比較することで、複雑な宝くじを差し引くことができる 0.64
make it harder for the algorithm to distinguish quickly between the two, hence making it possible アルゴリズムが2つを素早く区別することを困難にし、それを可能にする 0.76
to reverse the ordering between them. 両者の順序を逆転させます 0.67
As a consequence of these complications we focus on the これらの合併症の結果として私たちは 0.68
narrower topic of risk attitudes to draw up a cleaner theory, while a decision theory for algorithms よりクリーンな理論を作成するためのリスク態度のより狭いトピック、一方でアルゴリズムの決定理論 0.81
is a valuable area for future research. 将来の研究にとって 価値ある領域です 0.77
16 16 0.42
英語(論文から抽出)日本語訳スコア
6.2 Contextual Bandits and Reinforcement Learning 6.2 コンテキストバンディットと強化学習 0.80
In this work, we consider bandit algorithms. 本稿では,バンディットアルゴリズムについて考察する。 0.64
In many environments with autonomous agents, 自律的なエージェントを持つ多くの環境において 0.59
however, the environment has a richer structure. しかし 環境は より豊かな構造です 0.66
First consider a generalization to the contextual bandit environment. まず、コンテキストバンディット環境への一般化を考える。 0.66
In a contextual bandit in a contextual bandit 0.40
problem, a policy is given by π : ([l] × [k] × R)∗ × [l] → [k]. 問題 政策は π : ([l] × [k] × r)∗ × [l] → [k] である。 0.57
In each round, the agent receives one of l contexts ct from a distribution F ∈ ∆([l]). 各ラウンドにおいて、エージェントは分布 f ∈ s([l]) から l のコンテキスト ct の1つを受け取る。 0.71
The agent chooses an arm At ∈ [k] and receives a reward rt ∼ Fct,At. エージェントはアームAt ∈[k]を選択し、報酬rt > Fct,Atを受け取る。 0.61
In this environment, Theorem 1 implies that the contextual bandit algorithm running separate greedy algorithms for each contexts for この環境では、定理1は各文脈に対して別々の欲望アルゴリズムを実行する文脈バンディットアルゴリズムを意味する。 0.72
each context converges to choosing a deterministic over a stochastic arm of the same expectation それぞれの文脈は、同じ期待の確率的アームよりも決定論を選択することに収束する
訳抜け防止モード: それぞれの文脈は 同じ期待の確率的な腕よりも決定論的を選ぶ
0.72
depending on context. 状況によって異なります 0.46
The frequency at which higher-variance actions are taken in expectation 高い分散行動が期待される周波数 0.60
over contexts is an empirical measure of risk aversion. コンテキストを超えて リスク回避の実証的な尺度です 0.64
Even more generally, risk aversion can be defined for reinforcement learning. さらに一般的には、強化学習のためにリスク回避が定義できる。 0.69
In a simulation- シミュレーションで- 0.76
based environment, agents receive a state together with their environment. エージェントは環境とともに状態を受け取る。 0.47
This is modelled as これをモデル化する。 0.66
π : ([o] × [k] × R)∗ × [s] → [k] π : ([o] × [k] × R)∗ × [s] → [k] 0.39
where agents choose an action based on a observation-action-r eward history and a new state. エージェントが観察-行動-退行履歴と新しい状態に基づいてアクションを選択する場合。 0.71
The observation in this case is driven by a Markov decision process. その... この場合の観察はマルコフ決定プロセスによって駆動される。 0.44
Often, the state of the decision 多くの場合 意思決定の状況は 0.69
process can be returned to a fixed state. プロセスは固定状態に戻すことができる。 0.80
In this case, one immediate way to operationalize risk この場合、リスクを直ちに運用する一つの方法 0.78
aversion of the learning policy is to consider for a fixed history h = (o1, A1, r1, o2, A2, r2, . . . , ot) the 学習方針の逆転は、固定履歴h = (o1, A1, r1, o2, A2, r2, ot) を考えることである。 0.77
probability P[At = r|h] 確率 P[At = r|h] 0.61
for some action r that is “risky”. アクション r が "リスキー" である場合。 0.46
One of the most popular policies π for this problem is Upper この問題に対する最も一般的なポリシーの1つは上である。 0.55
Confidence Trees. For such trees, the same intuition as in our main section will apply: parts of the 信頼の木だ そのような木の場合、私たちの主節と同じ直観が適用されます。 0.60
tree that had a sample with low reward will be undersampled (in the language of upper confidence 報酬の低いサンプルを持つ木は、(高い信頼の言葉で)過小評価される 0.65
trees, subtrees are “purged”) and risk aversion is to be expected. 木、サブツリーは“押し付けられ”)、リスク回避が期待されます。 0.55
We leave the construction of 私たちは建設を辞める 0.80
environments to benchmark risk aversion for future work. 将来の仕事のリスク回避を ベンチマークする環境です 0.66
17 17 0.42
英語(論文から抽出)日本語訳スコア
6.3 Gittins Index 6.3 Gittins Index 0.39
The Gittins index policy is the foremost Bayesian algorithm, known to be optimal in a wide class Gittins index Policyはベイズアルゴリズムの最前線であり、幅広いクラスで最適であることが知られている 0.80
of problems. In a Bayesian formulation of our problem, it would in fact address many of the issues 問題があります 私たちの問題のベイズ式化では、実際、多くの問題に対処します 0.69
we raise in this paper. 私たちはこの論文で起草した。 0.46
With a correctly specified prior, i.e. with a prior that has support only 正しく指定された事前、すなわちサポートのみを持つ事前で 0.69
among distributions with the same expected value on both arms, it would indeed be truly indifferent 両腕に同じ価値が期待されている分布の中では 0.60
between the two arms, hence being risk neutral in the weak sense that we define. 2つの腕の間には、私たちが定義する弱い意味では、中立なリスクがあります。 0.59
Further, even a small bias in favor of the risky arm, with the prior again being correctly specified to have support さらに、aですら リスクの高い腕を支持する小さな偏見で、前者は正しく支持されていると指定される 0.71
only on distributions with that bias as the expected value, the policy would more often than not そのバイアスを期待値とする分布のみに限り、政策は多かれ多かれ多かれ少なかれ 0.66
choose the risky arm, hence also being risk neutral in the strong sense. リスクの高い腕を選択し、強い意味ではリスク中立である。 0.62
However it is crucial to assume that the prior is exactly specified, since even a vanishing error in prior specification can しかし 重要なのは 事前の仕様において消滅するエラーであっても、その前のエラーが正確に特定できると仮定する。 0.65
make the policy behave arbitrarily. 政策を任意に振る舞うのです 0.66
The reason many online learning algorithms are deployed is 多くのオンライン学習アルゴリズムがデプロイされている理由は 0.71
because specifying such priors is hard. だって そんな先を 特定するのは 難しいから。 0.44
7 Conclusion We propose a theory of risk aversion of algorithms, defined as a preference for the safer option 7 結論 より安全な選択肢の選好として定義されたアルゴリズムのリスク回避理論を提案する。 0.73
when faced with two options with the same expected reward. 同じ報酬の2つのオプションに直面した場合。 0.70
We theoretically show that the - 理論的には s-- は 0.60
greedy algorithm is perfectly risk-averse. greedyアルゴリズムは完全にリスク回避です。 0.65
We also empirically show the risk aversion of the Upper 上層部のリスク回避も 実証的に示しています 0.59
Confidence Band algorithm. 信頼バンドアルゴリズム。 0.71
We then calibrate to a recommendation system environment and show 次に、リコメンデーションシステム環境に調整し、表示します。 0.48
economic consequences of the identified bias. 偏見の経済的な影響です 0.59
There are multiple avenues for future research. 今後の研究には複数の道がある。 0.67
Often the environment features multiple ban- しばしば、環境は複数の禁止を特徴とする。 0.50
dits non-cooperatively, for example by different firms using different price-setting algorithms. 例えば、異なる価格設定アルゴリズムを使用して異なる企業によって、非協力的にダイエットする。 0.52
In multi-agent environments, the risk behaviour we identify might lead to additional emergent be- 院 マルチエージェント環境、私たちが識別するリスク行動は、新たなbeにつながるかもしれない- 0.48
haviors. Another direction is the design of risk-neutral bandit algorithms. 飛行士。 もう1つの方向はリスクニュートラル帯域幅アルゴリズムの設計である。 0.42
Our paper includes simulated results to test empirical validity of the theory, but a more in-depth empirical study of 私たちの論文には 理論の実証的妥当性をテストするためにシミュレーションされた結果であるが、より深い実証的研究 0.62
deployed recommendation systems online-learners could provide further validation of the theory オンラインのレコメンデーションシステムで理論のさらなる検証が可能に 0.67
we propose. Our extension to decision theory and Reinforcement Learning are direct avenues for 提案します 意思決定理論と強化学習への拡張は直接の道である 0.69
further theoretical study. 18 理論的な研究です 18 0.58
英語(論文から抽出)日本語訳スコア
References 2020. 参考文献 2020. 0.54
The Average American Has Streamed 20 Movies, Four Shows in Last Two Months. The Average Americanは過去2ヶ月で20本の映画と4本の映画をストリーミングした。 0.64
John Asker, Chaim Fershtman, and Ariel Pakes. ジョン・アスカー、シャイム・フェルシュトマン、アリエル・パイクス。 0.47
2021. Artificial Intelligence and Pricing: The 2021. 人工知能と価格: 0.48
Impact of Algorithm Design. アルゴリズム設計の影響。 0.68
National Bureau of Economic Research Working Paper Series 国務省経済研究ワーキングペーパーシリーズ 0.59
No. 28535 (2021). 第28535号(2021年)。 0.34
http://www.nber.org/ papers/w28535%0Ahttp ://www.nber.org/pape rs/ http://www.nber.org/ papers/w28535%0Ahttp ://www.nber.org/pape rs/ 0.16
w28535.pdf w28535.pdf 0.24
Peter Auer, Nicolo Cesa-Bianchi, and Paul Fischer. Peter Auer、Nicolo Cesa-Bianchi、Paul Fischer。 0.38
2002. Finite-time analysis of the multiarmed 2002. マルチアームの有限時間解析 0.59
bandit problem. Machine learning 47, 2 (2002), 235–256. 盗賊問題 機械学習 47, 2 (2002), 235–256。 0.61
Patrick Bolton and Christopher Harris. パトリック・ボルトンとクリストファー・ハリス 0.63
1999. Strategic experimentation. 1999. 戦略実験。 0.81
Econometrica 67, 2 (1999), Econometrica 67, 2 (1999) 0.36
349–374. Zach Y Brown and Alexander MacKay. 349–374. ザック・イ・ブラウンとアレクサンダー・マッケイ 0.45
2021. Competition in Pricing Algorithms. 2021. 価格アルゴリズムの競争。 0.55
Working Paper 28860. 作業用紙 28860. 0.62
National Bureau of Economic Research. 国立経済研究所所長。 0.62
https://doi.org/10.3 386/w28860 https://doi.org/10.3 386/w28860 0.16
Emilio Calvano, Giacomo Calzolari, Vincenzo Denicol`o, and Sergio Pastorello. Emilio Calvano, Giacomo Calzolari, Vincenzo Denicol`o, Sergio Pastorello 0.34
2020. Artificial 2020. 人工物 0.54
Intelligence, Algorithmic Pricing, and Collusion. 知性、アルゴリズム的な価格設定、そして結束。 0.49
American Economic Review 110, 10 (October アメリカ経済レビュー110,10(10月) 0.84
2020), 3267–97. 2020), 3267–97. 0.50
https://doi.org/10.1 257/aer.20190623 https://doi.org/10.1 257/aer.20190623 0.15
Allison J. B. Chaney, Brandon M. Stewart, and Barbara E. Engelhardt. アリソン・J・B・チェイニー、ブランドン・M・スチュワート、バーバラ・E・エンゲルハルト。 0.39
2018. How Algorithmic 2018. アルゴリズムがいかに 0.51
Confounding in Recommendation Systems Increases Homogeneity and Decreases Utility. 勧告システムの確立は均一性を高め、実用性を低下させる。 0.40
In Pro- ceedings of the 12th ACM Conference on Recommender Systems (Vancouver, British Columbia, プロで- 第12回acm conference on recommender systems(バンクーバー,ブリティッシュコロンビア州)の開催報告 0.73
Canada) (RecSys ’18). カナダ (RecSys'18)。 0.65
Association for Computing Machinery, New York, NY, USA, 224–232. Association for Computing Machinery, New York, NY, USA, 224–232。 0.92
https://doi.org/10.1 145/3240323.3240370 https://doi.org/10.1 145/3240323.3240370 0.15
Karsten T. Hansen, Kanishka Misra, and Mallesh M. Pai. Karsten T. Hansen, Kanishka Misra, Mallesh M. Pai 0.38
2021. Frontiers: Algorithmic Collusion: 2021. Frontiers: アルゴリズムによるコラボレーション 0.56
Supra-competitive Prices via Independent Algorithms. 独立アルゴリズムによる超競合価格。 0.69
Marketing Science 40, 1 (2021), 1–12. マーケティング科学40, 1 (2021), 1–12。 0.80
https://doi.org/10.1 287/mksc.2020.1276 arXiv:https://doi.or g/10.1287/mksc.2020. 1276 https://doi.org/10.1 287/mksc.2020.1276 arXiv:https://doi.or g/10.1287/mksc.2020. 1276 0.14
Tor Lattimore and Csaba Szepesv´ari. Tor LattimoreとCsaba Szepesv ́ari。 0.42
2020. Bandit Algorithms. 2020. バンディットアルゴリズム。 0.52
Bandit Algorithms (2020). バンディットアルゴリズム(2020年)。 0.74
https: //doi.org/10.1017/97 81108571401 https: //doi.org/10.1017/97 81108571401 0.26
Eric Maskin and John Riley. エリック・マスキンとジョン・ライリー 0.59
1984. Optimal auctions with risk averse buyers. 1984. リスク回避購入者による最適オークション。 0.54
Econometrica: Journal econometrica:ジャーナル 0.58
of the Econometric Society (1984), 1473–1518. 計量学会(1984年)、1473-1518年。 0.55
19 19 0.43
英語(論文から抽出)日本語訳スコア
Mark Sellke and Aleksandrs Slivkins. Mark SellkeとAleksandrs Slivkins。 0.66
2021. The Price of Incentivizing Exploration: A Characteri- 2021. 探検にインセンティブを与える価格:特徴- 0.58
zation via Thompson Sampling and Sample Complexity. Zation via Thompson Smpling and Sample Complexity (英語) 0.77
Association for Computing Machinery, アソシエーション・フォー・コンピューティング・マシンズ 0.36
New York, NY, USA, 795–796. ニューヨーク、ニューヨーク、795-796頁。 0.71
https://doi.org/10.1 145/3465456.3467549 https://doi.org/10.1 145/3465456.3467549 0.15
Eric W Weisstein. エリック・w・ワイススタイン 0.48
2002. Random Walk–1-Dimensional. 2002. ランダムウォーク-1次元。 0.43
https://mathworld. マスワールド(Mathworld)。 0.43
wolfram. com/ (2002). ウルフラム 2002年)より。 0.38
20 20 0.42
                                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。