論文の概要: Bandit Labor Training
- arxiv url: http://arxiv.org/abs/2006.06853v5
- Date: Wed, 16 Mar 2022 19:23:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 12:47:38.208268
- Title: Bandit Labor Training
- Title(参考訳): バンディットの労働訓練
- Authors: Eren Ozbay, Vijay Kamble
- Abstract要約: オンデマンドの労働プラットフォームは、求人需要に対応するために熟練した労働者を訓練することを目指している。
限られたジョブがトレーニングに利用可能であり、通常はすべてのワーカーを訓練する必要はないため、トレーニングジョブの効率的なマッチングには、遅いジョブよりも高速学習者の優先順位付けが必要である。
どんなポリシーでも$Omega(log T)$のインスタンス依存の後悔と$Omega(K2/3)$の最悪の後悔を起こさなければならない。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-demand labor platforms aim to train a skilled workforce to serve its
incoming demand for jobs. Since limited jobs are available for training, and it
is usually not necessary to train all workers, efficient matching of training
jobs requires prioritizing fast learners over slow ones. However, the learning
rates of novice workers are unknown, resulting in a tradeoff between
exploration (learning the learning rates) and exploitation (training the best
workers). Motivated to study this tradeoff, we analyze a novel objective within
the stochastic multi-armed bandit framework. Given $K$ arms, instead of
maximizing the expected total reward from $T$ pulls (the traditional "sum"
objective), we consider the vector of cumulative rewards earned from the $K$
arms at the end of $T$ pulls and aim to maximize the expected highest
cumulative reward (the "max" objective). When rewards represent skill
increments, this corresponds to the objective of training a single highly
skilled worker from a set of novice workers, using a limited supply of training
jobs. For this objective, we show that any policy must incur an
instance-dependent asymptotic regret of $\Omega(\log T)$ (with a higher
instance-dependent constant) and a worst-case regret of
$\Omega(K^{1/3}T^{2/3})$. We then design an explore-then-commit policy
featuring exploration based on appropriately tuned confidence bounds on the
mean reward and an adaptive stopping criterion, which adapts to the problem
difficulty and achieves these bounds (up to logarithmic factors). We generalize
our algorithmic insights to the problem of maximizing the expected value of the
average cumulative reward of the top $m$ arms with the highest cumulative
rewards, corresponding to the case where multiple workers must be trained. Our
numerical experiments demonstrate the efficacy of our policies compared to
several natural alternatives in practical parameter regimes.
- Abstract(参考訳): オンデマンド労働プラットフォームは、入社需要に対応するために熟練労働者を訓練することを目的としている。
訓練には限られた仕事があり、通常すべての労働者を訓練する必要はないので、トレーニングジョブの効率的なマッチングには、遅い仕事よりも高速な学習者を優先する必要がある。
しかし、初心者労働者の学習率は不明であるため、探索(学習率の学習)と搾取(最高の労働者の訓練)のトレードオフが生じている。
このトレードオフを研究するために,我々は,確率的マルチアームバンディットフレームワークにおける新しい目的を解析した。
k$のアームが与えられると、期待される総報酬を$t$のプル(従来の "sum" の目標)から最大にするのではなく、$t$のプルの最後に$k$のアームから得られる累積報酬のベクトルを検討し、期待される最高累積報酬("max" の目標)を最大化することを目指す。
報酬がスキルインクリメントを表す場合、これは訓練ジョブの限られた供給を利用して、初心者労働者のセットから1人の熟練した労働者を訓練する目的に対応する。
この目的のために、任意のポリシーは、$\Omega(\log T)$(より高いインスタンス依存定数を持つ)のインスタンス依存漸近後悔と$\Omega(K^{1/3}T^{2/3})$の最悪のケース後悔を誘発しなければならないことを示す。
次に,平均報酬に対する信頼度境界を適切に調整した探索と,問題の難易度に適応し,これらの境界(対数因子まで)を達成する適応的停止基準に基づいて探索を行う。
我々は,複数の労働者を訓練しなければならない場合に対応して,最上位の累積報酬を最上位の累積報酬で最大化する問題に対するアルゴリズム的洞察を一般化する。
本研究の数値実験は, 実用的なパラメータ体系におけるいくつかの自然代替手段と比較して, 政策の有効性を実証するものである。
関連論文リスト
- Survival Multiarmed Bandits with Bootstrapping Methods [0.0]
Survival Multiarmed Bandits (S-MAB) 問題は、エージェントを観察された報酬に関連する予算に制限する拡張である。
本稿では, 破壊的逆転成分によってバランスの取れた目的関数を用いて, そのような双対目標に対処する枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:21:10Z) - Reinforcement Learning with Quasi-Hyperbolic Discounting [2.3999111269325266]
準双曲(QH)割引は、このバイアスをモデル化するための単純な代替手段である。
我々の研究は、強化学習の実践的応用を著しく前進させる。
論文 参考訳(メタデータ) (2024-09-16T06:00:42Z) - Walking the Values in Bayesian Inverse Reinforcement Learning [66.68997022043075]
ベイズIRLの鍵となる課題は、可能な報酬の仮説空間と可能性の間の計算的ギャップを埋めることである。
本稿では,この知見に基づく新しいマルコフ連鎖モンテカルロ法であるValueWalkを提案する。
論文 参考訳(メタデータ) (2024-07-15T17:59:52Z) - STARC: A General Framework For Quantifying Differences Between Reward
Functions [55.33869271912095]
我々は、STARCメトリックと呼ばれるすべての報酬関数の空間上の擬計量のクラスを提供する。
以上の結果から,STARCは最悪の後悔に対して上界と下界の両方を誘導することがわかった。
また、以前の研究によって提案された報酬指標に関するいくつかの問題も特定します。
論文 参考訳(メタデータ) (2023-09-26T20:31:19Z) - Explore to Generalize in Zero-Shot RL [38.43215023828472]
本研究では,強化学習におけるゼロショットの一般化について検討する。
提案手法は,Mazeタスクが83%,Heistが74%,トレーニングレベルが200ドルという,極めて効果的な一般化を実現したProcGen課題のタスクの最先端技術であることを示す。
論文 参考訳(メタデータ) (2023-06-05T17:49:43Z) - Distributional Reward Estimation for Effective Multi-Agent Deep
Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。
本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。
DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文 参考訳(メタデータ) (2022-10-14T08:31:45Z) - Skill-Based Reinforcement Learning with Intrinsic Reward Matching [77.34726150561087]
Intrinsic Reward Matching (IRM) を提案する。
IRMにより、従来のスキル選択方法よりもはるかに効果的に事前訓練されたスキルを活用できる。
論文 参考訳(メタデータ) (2022-10-14T00:04:49Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。