論文の概要: The Survival Bandit Problem
- arxiv url: http://arxiv.org/abs/2206.03019v1
- Date: Tue, 7 Jun 2022 05:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 15:42:31.475976
- Title: The Survival Bandit Problem
- Title(参考訳): 生存バンド問題
- Authors: Charles Riou and Junya Honda and Masashi Sugiyama
- Abstract要約: 本稿では,Perottoらによるオープンな問題で導入されたマルチアームバンディット問題の変種であるサバイバルバンディット問題について検討する。
各段階において、エージェントは(おそらく負の)報酬を受け取り、累積報酬が予め定められた閾値よりも低い場合、手続きは停止し、この現象は破滅と呼ばれる。
遺跡が常に発生しているが必ずしも発生しない枠組みを研究する最初の論文である。
- 参考スコア(独自算出の注目度): 88.99232143228896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the survival bandit problem, a variant of the multi-armed bandit
problem introduced in an open problem by Perotto et al. (2019), with a
constraint on the cumulative reward; at each time step, the agent receives a
(possibly negative) reward and if the cumulative reward becomes lower than a
prespecified threshold, the procedure stops, and this phenomenon is called
ruin. This is the first paper studying a framework where the ruin might occur
but not always. We first discuss that a sublinear regret is unachievable under
a naive definition of the regret. Next, we provide tight lower bounds on the
probability of ruin (as well as matching policies). Based on this lower bound,
we define the survival regret as an objective to minimize and provide a policy
achieving a sublinear survival regret (at least in the case of integral
rewards) when the time horizon $T$ is known.
- Abstract(参考訳): ペロットら(2019)によるオープン問題で導入された多腕バンディット問題の変種であるサバイバルバンディット問題(サバイバルバンディット問題)を累積報酬に制約を課し、各時間ステップにおいて、エージェントが(おそらく負の)報酬を受け取り、累積報酬が予め定められた閾値よりも低い場合には、手続きが停止し、この現象を破滅と呼ぶ。
遺跡が常に発生しているが必ずしも発生しない枠組みを研究する最初の論文である。
まず, 後悔のナイーブな定義の下では, サブリニアな後悔は実現不可能であると論じる。
次に、崩壊の確率(およびポリシーの一致)について、厳格な下限を提供する。
この下限に基づいて、我々は生存後悔を最小化し、時間的地平線T$が知られている場合(少なくとも積分報酬の場合)のサブ線形生存後悔を達成するための政策を提供する目的として定義する。
関連論文リスト
- Survival Multiarmed Bandits with Bootstrapping Methods [0.0]
Survival Multiarmed Bandits (S-MAB) 問題は、エージェントを観察された報酬に関連する予算に制限する拡張である。
本稿では, 破壊的逆転成分によってバランスの取れた目的関数を用いて, そのような双対目標に対処する枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-21T20:21:10Z) - Best Arm Identification with Minimal Regret [55.831935724659175]
最高の腕識別問題 優雅にアマルガメートは、最小化とBAIを後悔している。
エージェントの目標は、所定の信頼度で最高の腕を特定することである。
二重KL-UCBアルゴリズムは、信頼度がゼロになる傾向があるため、最適性を達成する。
論文 参考訳(メタデータ) (2024-09-27T16:46:02Z) - Causal Bandits: The Pareto Optimal Frontier of Adaptivity, a Reduction to Linear Bandits, and Limitations around Unknown Marginals [28.94461817548213]
条件付き良性環境と任意の環境下での学習性能におけるトレードオフの可能性について,上界と下界の整合性を証明した。
この問題を線形バンディット設定に還元することで、最初に因果バンディットのインスタンス依存境界を求める。
論文 参考訳(メタデータ) (2024-07-01T04:12:15Z) - Multi-Agent Imitation Learning: Value is Easy, Regret is Hard [52.31989962031179]
我々は,エージェント群を協調させようとする学習者の視点で,マルチエージェント模倣学習(MAIL)問題を研究する。
MAILの以前の作業のほとんどは、基本的には、デモのサポート内で専門家の振る舞いにマッチする問題を減らすものです。
エージェントが戦略的でないという仮定の下で、学習者と専門家の間の価値ギャップをゼロにするのに十分であるが、戦略的エージェントによる逸脱を保証するものではない。
論文 参考訳(メタデータ) (2024-06-06T16:18:20Z) - Refining Minimax Regret for Unsupervised Environment Design [15.281908507614512]
我々は,ミニマックス後悔目標の洗練であるレベル・パーフェクトMMRを導入する。
我々は,BLP政策がすべてのレベルにおける完全ベイズ政策と一貫して振る舞うことを示す。
また、収束時にBLPポリシーをもたらすアルゴリズムReMiDiを導入する。
論文 参考訳(メタデータ) (2024-02-19T16:51:29Z) - One Arrow, Two Kills: An Unified Framework for Achieving Optimal Regret
Guarantees in Sleeping Bandits [29.896865106960423]
本稿では,emphSleeping Bandits における emphInternal Regret' の問題に対処する。
我々は, 完全に逆の損失と有効性の連続であっても, その尺度においてサブ線形後悔をもたらすアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-26T19:40:06Z) - A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs [117.82903457289584]
有限水平マルコフ決定過程(MDPs)における新たな問題依存的下界を導出する。
我々の下界は一般の場合よりもかなり小さく、最小の作用ギャップでスケールしないことが示される。
この最後の結果($poly(H)$の条件で、$H$は地平線である)は、楽観的なアルゴリズムのポリシーギャップに基づいて、後悔の意を表すことによって達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-24T13:46:09Z) - Empirical or Invariant Risk Minimization? A Sample Complexity
Perspective [49.43806345820883]
In-variant risk generalization (IRM) が広く採用されている経験的リスク最小化(ERM)フレームワークよりも好まれるかどうかは不明である。
データ生成機構の種類によって、2つのアプローチは、非常に異なる有限サンプルと振舞いを持つ可能性がある。
さらに、OOD溶液からの距離に関して、異なる要因(環境の数、モデルの複雑さ、およびIRMのペナルティ重量)がIRMのサンプルの複雑さにどのように影響するかについても検討する。
論文 参考訳(メタデータ) (2020-10-30T17:55:30Z) - A Deep Q-learning/genetic Algorithms Based Novel Methodology For
Optimizing Covid-19 Pandemic Government Actions [63.669642197519934]
我々はSEIR疫学モデルを用いて、人口の時間とともにウイルスウイルスの進化を表現している。
報酬システムにより、アクションのシーケンス(統合、自己同化、二メートル距離、制限を取らない)を評価する。
どちらの意味でも、パンデミックの悪影響を抑えるために政府が取るべき行動を発見する上で、我々の方法論が有効な手段であることを実証する。
論文 参考訳(メタデータ) (2020-05-15T17:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。