論文の概要: Identifying the Best Transition Law
- arxiv url: http://arxiv.org/abs/2502.12227v1
- Date: Mon, 17 Feb 2025 17:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:04.382374
- Title: Identifying the Best Transition Law
- Title(参考訳): 最良遷移法則の定式化
- Authors: Mehrasa Ahmadipour, élise Crepon, Aurélien Garivier,
- Abstract要約: 本稿では,各腕の報酬が既知の支持を持つ多項分布から引き出されるバンドイット問題におけるベストアーム識別について検討する。
LUCBを含む戦略によって達成されたパフォーマンスと、この知識を使用せずに比較する。
- 参考スコア(独自算出の注目度): 7.394099294390272
- License:
- Abstract: Motivated by recursive learning in Markov Decision Processes, this paper studies best-arm identification in bandit problems where each arm's reward is drawn from a multinomial distribution with a known support. We compare the performance { reached by strategies including notably LUCB without and with use of this knowledge. } In the first case, we use classical non-parametric approaches for the confidence intervals. In the second case, where a probability distribution is to be estimated, we first use classical deviation bounds (Hoeffding and Bernstein) on each dimension independently, and then the Empirical Likelihood method (EL-LUCB) on the joint probability vector. The effectiveness of these methods is demonstrated through simulations on scenarios with varying levels of structural complexity.
- Abstract(参考訳): マルコフ決定過程における再帰学習によって動機づけられた本論文は、各腕の報酬が既知の支持を持つ多項分布から引き出されるバンディット問題におけるベストアーム識別について研究する。
LUCBを含む戦略が到達した性能を、この知識を使わずに比較する。
最初のケースでは、信頼区間に古典的な非パラメトリックアプローチを使用します。
確率分布を推定する2つ目のケースでは、まず各次元の古典的偏差境界(Hoeffding と Bernstein)を使い、次に関節確率ベクトルの経験的近似法(EL-LUCB)を用いる。
これらの手法の有効性は, 構造的複雑性の異なるシナリオ上でのシミュレーションによって実証される。
関連論文リスト
- Best Arm Identification with Fixed Budget: A Large Deviation Perspective [54.305323903582845]
我々は、様々な武器の報酬間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
特に、様々な武器の報酬の間の経験的ギャップに基づいて、あらゆるラウンドで腕を拒絶できる真に適応的なアルゴリズムであるsredを提示する。
論文 参考訳(メタデータ) (2023-12-19T13:17:43Z) - FEMDA: a unified framework for discriminant analysis [4.6040036610482655]
非ガウスデータセットを扱うための新しいアプローチを提案する。
考慮されているモデルは、任意のスケールパラメータを持つクラスタ毎の任意の対称性(ES)分布である。
新しい決定規則を導出することにより,最大値のパラメータ推定と分類が,最先端手法と比較してシンプルで効率的で堅牢であることを示す。
論文 参考訳(メタデータ) (2023-11-13T17:59:37Z) - Distributionally Robust Skeleton Learning of Discrete Bayesian Networks [9.46389554092506]
我々は、潜在的に破損したデータから一般的な離散ベイズネットワークの正確なスケルトンを学習する問題を考察する。
本稿では,有界ワッサーシュタイン距離(KL)における分布群に対する最も有害なリスクを,経験的分布へのKL分散を最適化することを提案する。
本稿では,提案手法が標準正規化回帰手法と密接に関連していることを示す。
論文 参考訳(メタデータ) (2023-11-10T15:33:19Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - Pure Exploration under Mediators' Feedback [63.56002444692792]
マルチアームバンディット(Multi-armed bandits)は、各インタラクションステップにおいて、学習者が腕を選択し、報酬を観察する、シーケンシャルな意思決定フレームワークである。
本稿では,学習者が仲介者の集合にアクセスできるシナリオについて考察する。
本稿では,学習者には仲介者の方針が知られていると仮定して,最適な腕を発見するための逐次的意思決定戦略を提案する。
論文 参考訳(メタデータ) (2023-08-29T18:18:21Z) - Multivariate Systemic Risk Measures and Computation by Deep Learning
Algorithms [63.03966552670014]
本稿では,主観的最適度と関連するリスク割り当ての公平性に着目し,重要な理論的側面について論じる。
私たちが提供しているアルゴリズムは、予備項の学習、二重表現の最適化、およびそれに対応する公正なリスク割り当てを可能にします。
論文 参考訳(メタデータ) (2023-02-02T22:16:49Z) - Open-Set Likelihood Maximization for Few-Shot Learning [36.97433312193586]
我々はFew-Shot Open-Set Recognition (FSOSR) 問題、すなわちいくつかのラベル付きサンプルしか持たないクラスのインスタンスを分類する問題に取り組む。
提案手法では,推論時に非競合なクエリインスタンスを利用する。
既存のトランスダクティブ手法はオープンセットのシナリオではうまく動作しないという観測により,最大極大原理の一般化を提案する。
論文 参考訳(メタデータ) (2023-01-20T01:56:19Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Pathwise Conditioning of Gaussian Processes [72.61885354624604]
ガウス過程後部をシミュレーションするための従来のアプローチでは、有限個の入力位置のプロセス値の限界分布からサンプルを抽出する。
この分布中心の特徴づけは、所望のランダムベクトルのサイズで3次スケールする生成戦略をもたらす。
条件付けのこのパスワイズ解釈が、ガウス過程の後部を効率的にサンプリングするのに役立てる近似の一般族をいかに生み出すかを示す。
論文 参考訳(メタデータ) (2020-11-08T17:09:37Z) - Automated extraction of mutual independence patterns using Bayesian
comparison of partition models [7.6146285961466]
相互独立は、変数間の構造的関係を特徴づける統計学における重要な概念である。
相互独立を調査するための既存の手法は、2つの競合するモデルの定義に依存している。
本稿では,マルコフ連鎖モンテカルロ(MCMC)アルゴリズムを提案し,相互独立性のすべてのパターンの空間上の後部分布を数値的に近似する。
論文 参考訳(メタデータ) (2020-01-15T16:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。