論文の概要: Think Before You Duel: Understanding Complexities of Preference Learning
under Constrained Resources
- arxiv url: http://arxiv.org/abs/2312.17229v1
- Date: Thu, 28 Dec 2023 18:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 14:30:09.880651
- Title: Think Before You Duel: Understanding Complexities of Preference Learning
under Constrained Resources
- Title(参考訳): 決闘の前に考える - 制約のある資源下での選好学習の複雑さを理解する
- Authors: Rohan Deb, Aadirupa Saha
- Abstract要約: 本稿では,資源消費の制約とともに,デュエル・バンディット・セットアップにおける報酬の問題について考察する。
利用可能な予算の仮定を利用して、関連する消費も考慮したEXP3デュエルアルゴリズムを提供する。
- 参考スコア(独自算出の注目度): 29.624531252627488
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We consider the problem of reward maximization in the dueling bandit setup
along with constraints on resource consumption. As in the classic dueling
bandits, at each round the learner has to choose a pair of items from a set of
$K$ items and observe a relative feedback for the current pair. Additionally,
for both items, the learner also observes a vector of resource consumptions.
The objective of the learner is to maximize the cumulative reward, while
ensuring that the total consumption of any resource is within the allocated
budget. We show that due to the relative nature of the feedback, the problem is
more difficult than its bandit counterpart and that without further assumptions
the problem is not learnable from a regret minimization perspective.
Thereafter, by exploiting assumptions on the available budget, we provide an
EXP3 based dueling algorithm that also considers the associated consumptions
and show that it achieves an
$\tilde{\mathcal{O}}\left({\frac{OPT^{(b)}}{B}}K^{1/3}T^{2/3}\right)$ regret,
where $OPT^{(b)}$ is the optimal value and $B$ is the available budget.
Finally, we provide numerical simulations to demonstrate the efficacy of our
proposed method.
- Abstract(参考訳): 我々は, 資源消費の制約とともに, デュエル・バンディット設定における報酬最大化の問題を考える。
古典的なデュエルバンディットのように、各ラウンドにおいて学習者は1組の$k$アイテムから2組のアイテムを選択し、現在のペアに対する相対的なフィードバックを観察する必要がある。
さらに、どちらの項目でも、学習者はリソース消費のベクトルも観察する。
学習者の目標は、リソースの総消費が割り当てられた予算内であることを保証しつつ、累積報酬を最大化することである。
我々は,フィードバックの相対的性質から,バンディットよりも問題は困難であり,さらなる仮定がなければ,後悔の最小化の観点からは学習できないことを示した。
その後、利用可能な予算の仮定を利用して、関連する消費を考慮し、$\tilde{\mathcal{O}}\left({\frac{OPT^{(b)}}{B}}K^{1/3}T^{2/3}\right)$ regretを達成できるEXP3ベースのデュエルアルゴリズムを提供し、$OPT^{(b)}$が最適な値であり、$B$が利用可能な予算であることを示す。
最後に,提案手法の有効性を示す数値シミュレーションを行った。
関連論文リスト
- Adversarial Multi-dueling Bandits [0.4467766778351321]
対戦型多段バンディットにおける後悔の問題について紹介する。
このような嗜好フィードバックから学習するための新しいアルゴリズム MiDEX (Multi Dueling EXP3) を導入する。
論文 参考訳(メタデータ) (2024-06-18T10:28:12Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Borda Regret Minimization for Generalized Linear Dueling Bandits [65.09919504862496]
本稿では,ボルダスコアが最も高い項目を識別することを目的とした,デュエルバンディットに対するボルダ後悔最小化問題について検討する。
本稿では,多くの既存モデルをカバーする一般化線形デュエルバンドモデルのリッチクラスを提案する。
我々のアルゴリズムは$tildeO(d2/3 T2/3)$ regretを達成し、これも最適である。
論文 参考訳(メタデータ) (2023-03-15T17:59:27Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - On the Re-Solving Heuristic for (Binary) Contextual Bandits with
Knapsacks [4.2139857669184]
我々は、knapsacks (CBWK) を用いた文脈的包帯問題を考える。
本研究は,収益管理に成功している再解決と,この問題を解決するための分配推定手法を組み合わせたものである。
我々のアルゴリズムは流体ベンチマークに対して$widetilde O(Talpha_u + Talpha_v + T1/2)$ regretを得られることを示す。
論文 参考訳(メタデータ) (2022-11-25T08:21:50Z) - Stochastic Contextual Dueling Bandits under Linear Stochastic
Transitivity Models [25.336599480692122]
我々は,コンテキスト情報を用いた決闘バンディット問題における後悔の最小化タスクについて検討する。
本稿では,フィードバックプロセスの模倣に基づく計算効率のよいアルゴリズムである$texttCoLSTIM$を提案する。
本実験は,CoLSTモデルの特殊事例に対する最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-09T17:44:19Z) - Near-Optimal Regret Bounds for Contextual Combinatorial Semi-Bandits
with Linear Payoff Functions [53.77572276969548]
我々は、C$2$UCBアルゴリズムが分割マトロイド制約に対して最適な後悔結合$tildeO(dsqrtkT + dk)$を有することを示した。
一般的な制約に対して,C$2$UCBアルゴリズムで腕の報酬推定値を変更するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-20T04:29:18Z) - Adversarial Dueling Bandits [85.14061196945599]
本稿では,反逆デュエルバンドにおける後悔の問題を紹介する。
学習者は、繰り返し一対のアイテムを選択し、このペアに対する相対的な二項利得フィードバックのみを観察しなければならない。
我々の主な成果は、EmphBorda-winnerの1組の$K$アイテムと比較して、T$ラウンド後悔するアルゴリズムです。
論文 参考訳(メタデータ) (2020-10-27T19:09:08Z) - Regret Minimization in Stochastic Contextual Dueling Bandits [40.17224226373741]
我々は、コンテキスト設定において、$K$武装デュエルバンディットの問題を考察する。
提案手法は, それぞれ, 後悔の保証を施した2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T06:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。