Fugu-MT 論文翻訳(概要): Survival Multiarmed Bandits with Boostrapping Methods

論文の概要: Survival Multiarmed Bandits with Boostrapping Methods

arxiv url: http://arxiv.org/abs/2410.16486v1
Date: Mon, 21 Oct 2024 20:21:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.750046
Title: Survival Multiarmed Bandits with Boostrapping Methods
Title（参考訳）: ブーッピング法によるサバイバルマルチアームバンド
Authors: Peter Veroutis, Frédéric Godin,
Abstract要約: Survival Multiarmed Bandits (S-MAB) 問題は、エージェントを観察された報酬に関連する予算に制限する拡張である。本稿では, 破壊的逆転成分によってバランスの取れた目的関数を用いて, このような2つの目標に対処するフレームワークを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Multiarmed Bandits (MAB) problem has been extensively studied and has seen many practical applications in a variety of fields. The Survival Multiarmed Bandits (S-MAB) open problem is an extension which constrains an agent to a budget that is directly related to observed rewards. As budget depletion leads to ruin, an agent's objective is to both maximize expected cumulative rewards and minimize the probability of ruin. This paper presents a framework that addresses such dual goal using an objective function balanced by a ruin aversion component. Action values are estimated through a novel approach which consists of bootstrapping samples from previously observed rewards. In numerical experiments, the policies we present outperform benchmarks from the literature.
Abstract（参考訳）: マルチアーマド・バンディット(MAB)問題は広く研究され、様々な分野に応用されている。 Survival Multiarmed Bandits (S-MAB) は、エージェントを観察された報酬に直接関連する予算に制限する拡張である。予算の枯渇が台無しになるにつれて、エージェントの目的は期待される累積的な報酬を最大化し、破壊の可能性を最小化することである。本稿では, 破壊的逆転成分によってバランスの取れた目的関数を用いて, このような2つの目標に対処するフレームワークを提案する。アクション値は、以前に観測された報酬からサンプルをブートストラップする新しいアプローチによって推定される。数値実験では,本論文のベンチマークよりも優れた結果が得られた。

関連論文リスト

Optimal Multi-Objective Best Arm Identification with Fixed Confidence [62.36929749450298]
我々は、各アームが選択時にM$Dのベクトル報酬を得られる多腕バンディット設定を考える。最終的なゴールは、最も短い(予想される)時間において、エラーの確率の上限に従属する全ての目的の最良のアームを特定することである。本稿では,各ステップでアームをサンプリングするために,エミュロゲート比例という新しいアイデアを用いたアルゴリズムを提案し,各ステップにおける最大最小最適化問題を解く必要をなくした。
論文参考訳（メタデータ） (2025-01-23T12:28:09Z)
Stochastic Bandits for Egalitarian Assignment [58.33714486693828]
我々は,多武装盗賊の文脈における平等的課題であるEgalMABについて検討する。 UCBベースのポリシーEgalUCBを設計・分析し、累積的後悔の上限を確立する。
論文参考訳（メタデータ） (2024-10-08T09:49:47Z)
Principal-Agent Reward Shaping in MDPs [50.914110302917756]
主要な問題とは、ある政党が他の政党に代わって行動し、利害対立を引き起こすことである。本研究では,主役とエージェントが異なる報酬関数を持つ2人プレイのスタックゲームについて検討し,エージェントは両プレイヤーに対してMDPポリシーを選択する。この結果は,有限の地平線を持つ木と決定論的決定過程を確立した。
論文参考訳（メタデータ） (2023-12-30T18:30:44Z)
Robust and Performance Incentivizing Algorithms for Multi-Armed Bandits with Strategic Agents [52.75161794035767]
性能インセンティブとロバストネスの2つの目的を同時に満たすバンディットアルゴリズムのクラスを導入する。そこで本研究では,第2価格オークションのアイデアをアルゴリズムと組み合わせることで,プリンシパルが腕の性能特性に関する情報を持たないような設定が可能であることを示す。
論文参考訳（メタデータ） (2023-12-13T06:54:49Z)
Bandit Social Learning: Exploration under Myopic Behavior [58.75758600464338]
オンラインプラットフォーム上でのレビューによって動機付けられた社会学習のダイナミクスについて検討する。エージェントはまとめて単純なマルチアームのバンディットプロトコルに従うが、各エージェントは探索を伴わずにミオプティカルに振る舞う。このような振る舞いに対して,スターク学習の失敗を導出し,好意的な結果を提供する。
論文参考訳（メタデータ） (2023-02-15T01:57:57Z)
On Penalization in Stochastic Multi-armed Bandits [22.04356596828437]
本稿では,マルチアーム・バンディット(MAB)問題の重要な変種について検討し,ペナルティ化を考慮に入れた。フェアネス、ほぼ最適の後悔、報酬とフェアネスのトレードオフの改善など、多くのメリットを享受する難解なUPBライクなアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-11-15T17:13:09Z)
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning [19.788336796981685]
実効的マルチエージェント強化学習(DRE-MARL)のための分散逆推定フレームワークを提案する。本研究の目的は,安定トレーニングのための多行動分岐報酬推定と政策重み付け報酬アグリゲーションを設計することである。 DRE-MARLの優位性は,有効性とロバスト性の両方の観点から,SOTAベースラインと比較して,ベンチマークマルチエージェントシナリオを用いて実証される。
論文参考訳（メタデータ） (2022-10-14T08:31:45Z)
Modelling Cournot Games as Multi-agent Multi-armed Bandits [4.751331778201811]
繰り返しCournot oligopolyゲームにおけるマルチエージェントマルチアーム・バンディット(MA-MAB)の設定について検討した。私たちは、$epsilon$-greedyアプローチが、従来のMABアプローチよりもより実行可能な学習メカニズムを提供することに気付きました。順序付けられたアクション空間を利用する新しいアプローチとして、$epsilon$-greedy+HLと$epsilon$-greedy+ELを提案する。
論文参考訳（メタデータ） (2022-01-01T22:02:47Z)
Best Arm Identification under Additive Transfer Bandits [49.69203462561861]
提案手法は, 未知であるにもかかわらず, ソースとターゲットMABインスタンスの間には, 付加的な関係があることが知られている。本稿では,LUCBスタイルのアルゴリズムを理論的に解析し,高い確率で$epsilon$-optimal target armを同定する。
論文参考訳（メタデータ） (2021-12-08T02:20:18Z)
Output-Weighted Sampling for Multi-Armed Bandits with Extreme Payoffs [11.1546439770774]
極度のペイオフを伴うバンディット問題におけるオンライン意思決定のための新しいタイプの獲得機能を提示する。我々は,最も関連性が高いと考えられる盗賊を探索する新しいタイプの上位信頼境界(UCB)取得関数を定式化する。
論文参考訳（メタデータ） (2021-02-19T18:36:03Z)
Bandit Labor Training [2.28438857884398]
オンデマンドの労働プラットフォームは、求人需要に対応するために熟練した労働者を訓練することを目指している。限られたジョブがトレーニングに利用可能であり、通常はすべてのワーカーを訓練する必要はないため、トレーニングジョブの効率的なマッチングには、遅いジョブよりも高速学習者の優先順位付けが必要である。どんなポリシーでも$Omega(log T)$のインスタンス依存の後悔と$Omega(K2/3)$の最悪の後悔を起こさなければならない。
論文参考訳（メタデータ） (2020-06-11T21:59:13Z)
Robustness Guarantees for Mode Estimation with an Application to Bandits [131.21717367564963]
平均ではなく報酬分布のモードを値とするマルチアームバンディットの理論を導入する。我々は,我々のアルゴリズムが逆雑音列による腕の摂動に頑健であることを示すシミュレーションで示す。
論文参考訳（メタデータ） (2020-03-05T21:29:27Z)
The Price of Incentivizing Exploration: A Characterization via Thompson Sampling and Sample Complexity [83.81297078039836]
インセンティブ付き探索(Incentivized Exploring)は、武器の選択を自給自足エージェントによって制御するマルチアーム・バンディットのバージョンである。我々は、インセンティブの価格に焦点を合わせ、インセンティブの適合性のために、広く解釈された、パフォーマンスの喪失が引き起こされる。
論文参考訳（メタデータ） (2020-02-03T04:58:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。