論文の概要: Optimal Activation of Halting Multi-Armed Bandit Models
- arxiv url: http://arxiv.org/abs/2304.10302v1
- Date: Thu, 20 Apr 2023 13:32:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:13:29.657482
- Title: Optimal Activation of Halting Multi-Armed Bandit Models
- Title(参考訳): 停止するマルチアームバンディットモデルの最適活性化
- Authors: Wesley Cowan, Michael N. Katehakis, Sheldon M. Ross
- Abstract要約: sl Halting Banditモデルにおける新しいタイプの動的割当問題について検討する。
アプリケーションとして、古典的なGittinsインデックス分解結果の新しい証明を得る。
- 参考スコア(独自算出の注目度): 0.6015898117103068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study new types of dynamic allocation problems the {\sl Halting Bandit}
models. As an application, we obtain new proofs for the classic Gittins index
decomposition result and recent results of the authors in `Multi-armed bandits
under general depreciation and commitment.'
- Abstract(参考訳): 本研究では,"slstoping bandit}モデルにおける動的割り当て問題の新しいタイプについて検討する。
応用として,古典的なGittins指数分解結果の新たな証明と,一般の減価償却とコミットメントの下での 'Multi-armed bandits' の著者による最近の結果を得る。
'
関連論文リスト
- Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - On the Embedding Collapse when Scaling up Recommendation Models [53.66285358088788]
埋め込み崩壊現象をスケーラビリティの阻害とみなし、埋め込み行列は低次元の部分空間を占有する傾向にある。
本稿では,組込み集合固有の相互作用モジュールを組み込んで,多様性を持つ組込み集合を学習する,単純かつ効果的な組込み設計を提案する。
論文 参考訳(メタデータ) (2023-10-06T17:50:38Z) - On Learning to Rank Long Sequences with Contextual Bandits [17.97356309346139]
本稿では,様々な報酬と損失を伴うフレキシブルな長さ列を考慮したカスケーディング・バンディットモデルを提案する。
我々の分析は、バニラカスケードの盗賊に特化して、文献で以前よりも厳しい保証をもたらす厳格な後悔の限界を提供する。
論文 参考訳(メタデータ) (2021-06-07T12:16:34Z) - Voting based ensemble improves robustness of defensive models [82.70303474487105]
我々は、より堅牢性を高めるためのアンサンブルを作ることができるかどうか研究する。
最先端の先制防衛モデルを複数組み合わせることで,59.8%の堅牢な精度を達成できる。
論文 参考訳(メタデータ) (2020-11-28T00:08:45Z) - Effects of Model Misspecification on Bayesian Bandits: Case Studies in
UX Optimization [8.704145252476705]
我々は、新しい定式化を、保存されていない共同創設者とオプションの停止を伴う、安静な睡眠バンディットとして提示する。
ケーススタディは、一般的な不特定が最適以下の報酬につながることを示している。
また、レスレスバンディットにおける結合を利用した最初のモデルを示し、有限の後悔と高速で一貫した停止が可能であることを示した。
論文 参考訳(メタデータ) (2020-10-07T14:34:28Z) - Influence Diagram Bandits: Variational Thompson Sampling for Structured
Bandit Problems [40.957688390621385]
我々のフレームワークは、アクション、潜伏変数、観察の間の複雑な統計的依存関係をキャプチャする。
我々のモデルで効率的に行動することを学ぶ新しいオンライン学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-07-09T16:25:40Z) - Automated and Formal Synthesis of Neural Barrier Certificates for
Dynamical Models [70.70479436076238]
バリア証明書(BC)の自動的,形式的,反例に基づく合成手法を提案する。
このアプローチは、ニューラルネットワークとして構造化されたBCの候補を操作する誘導的フレームワークと、その候補の有効性を認証するか、反例を生成する音検証器によって支えられている。
その結果,音のBCsを最大2桁の速度で合成できることがわかった。
論文 参考訳(メタデータ) (2020-07-07T07:39:42Z) - Model Agnostic Combination for Ensemble Learning [0.0]
本稿では,モデルを組み合わせるための最適関数を見つけるために,MACという新しいアンサンブル手法を提案する。
サブモデルの数に依存しないため、デプロイ後もサブモデルの追加と置き換えが可能である。
論文 参考訳(メタデータ) (2020-06-16T09:44:58Z) - Robust Multi-object Matching via Iterative Reweighting of the Graph
Connection Laplacian [15.813217907813778]
まず,本手法の厳密な限界と,反復的に再重み付けされた最小二乗法が不適切であることを明らかにする。
これらの制約を考慮すると,高次地区からの情報を取り入れた,新しい,より信頼性の高い反復的再重み付け戦略を提案する。
合成データと実データの両方を用いた最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-06-11T17:53:01Z) - A Novel Confidence-Based Algorithm for Structured Bandits [129.30402124516507]
両腕の報酬が他の腕の報酬と相関する可能性のある有限腕包帯について検討した。
本稿では、与えられた構造を利用して、真のバンディット問題のパラメータに対する信頼セットを構築する新しい位相アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-23T19:52:44Z) - Lower bounds in multiple testing: A framework based on derandomized
proxies [107.69746750639584]
本稿では, 各種コンクリートモデルへの適用例を示す, デランドマイズに基づく分析戦略を提案する。
これらの下界のいくつかを数値シミュレーションし、Benjamini-Hochberg (BH) アルゴリズムの実際の性能と密接な関係を示す。
論文 参考訳(メタデータ) (2020-05-07T19:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。