論文の概要: The Survival Bandit Problem
- arxiv url: http://arxiv.org/abs/2206.03019v1
- Date: Tue, 7 Jun 2022 05:23:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-08 15:42:31.475976
- Title: The Survival Bandit Problem
- Title(参考訳): 生存バンド問題
- Authors: Charles Riou and Junya Honda and Masashi Sugiyama
- Abstract要約: 本稿では,Perottoらによるオープンな問題で導入されたマルチアームバンディット問題の変種であるサバイバルバンディット問題について検討する。
各段階において、エージェントは(おそらく負の)報酬を受け取り、累積報酬が予め定められた閾値よりも低い場合、手続きは停止し、この現象は破滅と呼ばれる。
遺跡が常に発生しているが必ずしも発生しない枠組みを研究する最初の論文である。
- 参考スコア(独自算出の注目度): 88.99232143228896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the survival bandit problem, a variant of the multi-armed bandit
problem introduced in an open problem by Perotto et al. (2019), with a
constraint on the cumulative reward; at each time step, the agent receives a
(possibly negative) reward and if the cumulative reward becomes lower than a
prespecified threshold, the procedure stops, and this phenomenon is called
ruin. This is the first paper studying a framework where the ruin might occur
but not always. We first discuss that a sublinear regret is unachievable under
a naive definition of the regret. Next, we provide tight lower bounds on the
probability of ruin (as well as matching policies). Based on this lower bound,
we define the survival regret as an objective to minimize and provide a policy
achieving a sublinear survival regret (at least in the case of integral
rewards) when the time horizon $T$ is known.
- Abstract(参考訳): ペロットら(2019)によるオープン問題で導入された多腕バンディット問題の変種であるサバイバルバンディット問題(サバイバルバンディット問題)を累積報酬に制約を課し、各時間ステップにおいて、エージェントが(おそらく負の)報酬を受け取り、累積報酬が予め定められた閾値よりも低い場合には、手続きが停止し、この現象を破滅と呼ぶ。
遺跡が常に発生しているが必ずしも発生しない枠組みを研究する最初の論文である。
まず, 後悔のナイーブな定義の下では, サブリニアな後悔は実現不可能であると論じる。
次に、崩壊の確率(およびポリシーの一致)について、厳格な下限を提供する。
この下限に基づいて、我々は生存後悔を最小化し、時間的地平線T$が知られている場合(少なくとも積分報酬の場合)のサブ線形生存後悔を達成するための政策を提供する目的として定義する。
関連論文リスト
- Refining Minimax Regret for Unsupervised Environment Design [16.048230822567806]
我々は,ミニマックス後悔目標の洗練であるレベル・パーフェクトMMRを導入する。
我々は,BLP政策がすべてのレベルにおける完全ベイズ政策と一貫して振る舞うことを示す。
また、収束時にBLPポリシーをもたらすアルゴリズムReMiDiを導入する。
論文 参考訳(メタデータ) (2024-02-19T16:51:29Z) - Is Epistemic Uncertainty Faithfully Represented by Evidential Deep
Learning Methods? [12.88166582566313]
本稿では,顕在的深層学習の新たな理論的考察について述べる。
これは二階損失関数の最適化の難しさを強調している。
第二次損失最小化における識別可能性と収束性の問題に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-02-14T10:07:05Z) - On Penalization in Stochastic Multi-armed Bandits [22.04356596828437]
本稿では,マルチアーム・バンディット(MAB)問題の重要な変種について検討し,ペナルティ化を考慮に入れた。
フェアネス、ほぼ最適の後悔、報酬とフェアネスのトレードオフの改善など、多くのメリットを享受する難解なUPBライクなアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-11-15T17:13:09Z) - One Arrow, Two Kills: An Unified Framework for Achieving Optimal Regret
Guarantees in Sleeping Bandits [29.896865106960423]
本稿では,emphSleeping Bandits における emphInternal Regret' の問題に対処する。
我々は, 完全に逆の損失と有効性の連続であっても, その尺度においてサブ線形後悔をもたらすアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-26T19:40:06Z) - MIRST-DM: Multi-Instance RST with Drop-Max Layer for Robust
Classification of Breast Cancer [62.997667081978825]
MIRST-DMと呼ばれるドロップマックス層を用いたマルチインスタンスRTTを提案し、小さなデータセット上でよりスムーズな決定境界を学習する。
提案手法は1,190画像の小さな乳房超音波データセットを用いて検証した。
論文 参考訳(メタデータ) (2022-05-02T20:25:26Z) - A Fully Problem-Dependent Regret Lower Bound for Finite-Horizon MDPs [117.82903457289584]
有限水平マルコフ決定過程(MDPs)における新たな問題依存的下界を導出する。
我々の下界は一般の場合よりもかなり小さく、最小の作用ギャップでスケールしないことが示される。
この最後の結果($poly(H)$の条件で、$H$は地平線である)は、楽観的なアルゴリズムのポリシーギャップに基づいて、後悔の意を表すことによって達成可能であることを示す。
論文 参考訳(メタデータ) (2021-06-24T13:46:09Z) - Empirical or Invariant Risk Minimization? A Sample Complexity
Perspective [49.43806345820883]
In-variant risk generalization (IRM) が広く採用されている経験的リスク最小化(ERM)フレームワークよりも好まれるかどうかは不明である。
データ生成機構の種類によって、2つのアプローチは、非常に異なる有限サンプルと振舞いを持つ可能性がある。
さらに、OOD溶液からの距離に関して、異なる要因(環境の数、モデルの複雑さ、およびIRMのペナルティ重量)がIRMのサンプルの複雑さにどのように影響するかについても検討する。
論文 参考訳(メタデータ) (2020-10-30T17:55:30Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z) - A Deep Q-learning/genetic Algorithms Based Novel Methodology For
Optimizing Covid-19 Pandemic Government Actions [63.669642197519934]
我々はSEIR疫学モデルを用いて、人口の時間とともにウイルスウイルスの進化を表現している。
報酬システムにより、アクションのシーケンス(統合、自己同化、二メートル距離、制限を取らない)を評価する。
どちらの意味でも、パンデミックの悪影響を抑えるために政府が取るべき行動を発見する上で、我々の方法論が有効な手段であることを実証する。
論文 参考訳(メタデータ) (2020-05-15T17:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。