論文の概要: Preference-based Pure Exploration
- arxiv url: http://arxiv.org/abs/2412.02988v2
- Date: Thu, 16 Jan 2025 22:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-20 13:58:17.609895
- Title: Preference-based Pure Exploration
- Title(参考訳): 嗜好に基づく純粋探索
- Authors: Apurv Shukla, Debabrota Basu,
- Abstract要約: ベクトル値の報酬を持つ包帯の選好に基づく純粋探索問題について検討する。
我々は、最も好まれるポリシーを特定するために、サンプルの複雑さに基づいた新しい境界を導出する。
次に、下界の凸緩和を行い、それを利用して、Preferenceベースのトラック・アンド・ストップアルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 9.93543990054216
- License:
- Abstract: We study the preference-based pure exploration problem for bandits with vector-valued rewards. The rewards are ordered using a (given) preference cone $\mathcal{C}$ and our goal is to identify the set of Pareto optimal arms. First, to quantify the impact of preferences, we derive a novel lower bound on sample complexity for identifying the most preferred policy with a confidence level $1-\delta$. Our lower bound elicits the role played by the geometry of the preference cone and punctuates the difference in hardness compared to existing best-arm identification variants of the problem. We further explicate this geometry when the rewards follow Gaussian distributions. We then provide a convex relaxation of the lower bound and leverage it to design the Preference-based Track and Stop (PreTS) algorithm that identifies the most preferred policy. Finally, we show that the sample complexity of PreTS is asymptotically tight by deriving a new concentration inequality for vector-valued rewards.
- Abstract(参考訳): ベクトル値の報酬を持つ包帯の選好に基づく純粋探索問題について検討する。
報酬は(希望の)選好コーン$\mathcal{C}$で注文され、我々のゴールはパレートの最適アームの集合を特定することである。
まず、嗜好の影響を定量化するために、信頼レベル1-\delta$で最も好まれるポリシーを特定するために、サンプルの複雑さに基づいた新しい境界を導出する。
我々の下界は、選好錐の幾何学によって果たされる役割を引き合いに出し、問題の既存のベストアーム識別変種と比較して硬さの違いを句読する。
報酬がガウス分布に従うとき、さらにこの幾何学を解明する。
次に、下界の凸緩和を行い、最も好まれるポリシーを識別するPreference-based Track and Stop (PreTS)アルゴリズムを設計する。
最後に、PreTSのサンプル複雑性は、ベクトル値の報酬に対する新しい濃度不等式を導出することにより漸近的に厳密であることを示す。
関連論文リスト
- Optimal Multi-Fidelity Best-Arm Identification [65.23078799972188]
バンディットのベストアーム識別において、アルゴリズムは、できるだけ早く特定の精度で、最高平均報酬の腕を見つけることを任務とする。
マルチフィデリティのベストアーム識別について検討し、低コストで低いフィデリティ(正確な平均推定値を持たない)で腕をサンプリングすることを選択できる。
この問題に対処するためのいくつかの方法が提案されているが、その最適性は、特に最適な腕を特定するのに必要な総コストのゆるやかな下限のため、未解決のままである。
論文 参考訳(メタデータ) (2024-06-05T08:02:40Z) - Thompson Exploration with Best Challenger Rule in Best Arm
Identification [66.33448474838342]
本稿では,バンドイットフレームワークにおける固定信頼度最良腕識別問題について検討する。
我々は、トンプソンサンプリングと、ベストチャレンジャールールとして知られる計算効率の良いアプローチを組み合わせた新しいポリシーを提案する。
論文 参考訳(メタデータ) (2023-10-01T01:37:02Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Mean-based Best Arm Identification in Stochastic Bandits under Reward
Contamination [80.53485617514707]
本稿では,ギャップベースアルゴリズムと逐次除去に基づく2つのアルゴリズムを提案する。
具体的には、ギャップベースのアルゴリズムでは、サンプルの複雑さは定数要素まで最適であり、連続的な除去では対数因子まで最適である。
論文 参考訳(メタデータ) (2021-11-14T21:49:58Z) - Vector Optimization with Stochastic Bandit Feedback [10.66048003460524]
幾何学的帯域フィードバックを用いたベクトル最適化問題を導入する。
多次元平均報酬ベクトルを持つ$K$の設計を、多面的順序付けコーン$C$に従って部分的に順序付けする。
論文 参考訳(メタデータ) (2021-10-23T22:38:54Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Robust Outlier Arm Identification [16.21284542559277]
ロバスト・アウトリー・アーム識別(ROAI)の問題点について検討する。
目標は、期待される報酬が多数派から大きく逸脱した武器を特定することである。
我々は、期待される報酬の中央値と中央値の絶対偏差を用いて、外れ値のしきい値を算出する。
論文 参考訳(メタデータ) (2020-09-21T16:13:01Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Quantile Multi-Armed Bandits: Optimal Best-Arm Identification and a
Differentially Private Scheme [16.1694012177079]
我々は,多腕バンディットにおける最高の武器識別問題,潜在的に私的な報酬について検討する。
ゴールは、固定された所定のレベルで、最も高い定量値を持つ腕を特定することである。
このアルゴリズムは$delta$-PACであり,サンプルの複雑さを特徴付ける。
論文 参考訳(メタデータ) (2020-06-11T20:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。