論文の概要: Leveraging User-Triggered Supervision in Contextual Bandits
- arxiv url: http://arxiv.org/abs/2302.03784v1
- Date: Tue, 7 Feb 2023 22:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 18:00:30.935166
- Title: Leveraging User-Triggered Supervision in Contextual Bandits
- Title(参考訳): コンテキスト・バンディットにおけるユーザトリガード・スーパーバイザリングの活用
- Authors: Alekh Agarwal, Claudio Gentile, Teodor V. Marinov
- Abstract要約: 本研究では,コンテキスト的帯域幅(CB)問題について検討する。
我々は,そのバイアスの性質に頑健でありながら,そのような信号を利用する新しい枠組みを開発する。
- 参考スコア(独自算出の注目度): 34.58466163463977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study contextual bandit (CB) problems, where the user can sometimes
respond with the best action in a given context. Such an interaction arises,
for example, in text prediction or autocompletion settings, where a poor
suggestion is simply ignored and the user enters the desired text instead.
Crucially, this extra feedback is user-triggered on only a subset of the
contexts. We develop a new framework to leverage such signals, while being
robust to their biased nature. We also augment standard CB algorithms to
leverage the signal, and show improved regret guarantees for the resulting
algorithms under a variety of conditions on the helpfulness of and bias
inherent in this feedback.
- Abstract(参考訳): コンテキストバンディット(cb)問題について検討し,与えられたコンテキストにおいて,ユーザが時として最善のアクションで応答できる場合について検討した。
このようなインタラクションは、例えばテキスト予測や自動補完設定で発生し、まずい提案が単に無視され、ユーザが代わりに所望のテキストを入力する。
重要なことに、この追加のフィードバックは、コンテキストのサブセットのみにユーザによってトリガーされる。
我々は,そのバイアスの性質に頑健でありながら,そのような信号を利用する新しい枠組みを開発する。
また、この信号を活用するために標準cbアルゴリズムを補強し、フィードバックに固有の有用性とバイアスに関する様々な条件下で結果のアルゴリズムに対する後悔の保証を改善した。
関連論文リスト
- RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Follow-ups Also Matter: Improving Contextual Bandits via Post-serving
Contexts [31.33919659549256]
本稿では,ポストサーベイング・コンテクストに対する新しい文脈的バンディット問題を提案する。
我々のアルゴリズムである poLinUCB は、標準的な仮定の下では、厳格に後悔する。
合成データセットと実世界のデータセットの両方に対する大規模な実証テストは、サービス後コンテキストを活用するという大きなメリットを示している。
論文 参考訳(メタデータ) (2023-09-25T06:22:28Z) - Kernelized Offline Contextual Dueling Bandits [15.646879026749168]
本研究では、エージェントが人間のフィードバックを得るためにコンテキストを選択することがしばしばあるという事実を活用する。
我々は,この設定に対して高信頼度スタイルのアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-07-21T01:17:31Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - Robust Stochastic Linear Contextual Bandits Under Adversarial Attacks [81.13338949407205]
近年の研究では、最適なバンディットアルゴリズムは敵攻撃に対して脆弱であり、攻撃の有無で完全に失敗する可能性があることが示されている。
既存の堅牢なバンディットアルゴリズムは、報酬の攻撃下では、非コンテキスト設定でのみ機能する。
完全適応的かつ全能的な攻撃下での線形文脈帯域設定のための最初の頑健な帯域幅アルゴリズムを提供する。
論文 参考訳(メタデータ) (2021-06-05T22:20:34Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Greedy Bandits with Sampled Context [0.0]
Greedy Bandits with Sampled Context (GB-SC) は、コンテキスト情報から事前の開発を行うためのコンテキスト多重武装バンディットの手法である。
以上の結果から,Mushroom環境において,期待される後悔と期待される累積的後悔の両面での競争性能が示された。
論文 参考訳(メタデータ) (2020-07-27T17:17:45Z) - Online learning with Corrupted context: Corrupted Contextual Bandits [19.675277307158435]
我々は文脈的盗賊問題の新しい変種を考える。
この問題は、臨床試験や広告レコメンデーションなどのオンライン設定によって動機付けられている。
本稿では,従来のマルチアームバンディット機構と標準的なコンテキスト的バンディットアプローチを組み合わせることを提案する。
論文 参考訳(メタデータ) (2020-06-26T19:53:26Z) - Survey Bandits with Regret Guarantees [15.247024659017542]
文脈的包帯問題の変種を考察する。
標準的なコンテキストブレイトでは、ユーザが到着すると、ユーザの完全な特徴ベクトルを取得し、そのユーザに治療(アーム)を割り当てます。
我々は,強い後悔の保証を維持しつつ,不要な特徴収集を回避するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-23T03:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。