論文の概要: Leveraging User-Triggered Supervision in Contextual Bandits
- arxiv url: http://arxiv.org/abs/2302.03784v1
- Date: Tue, 7 Feb 2023 22:42:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 18:00:30.935166
- Title: Leveraging User-Triggered Supervision in Contextual Bandits
- Title(参考訳): コンテキスト・バンディットにおけるユーザトリガード・スーパーバイザリングの活用
- Authors: Alekh Agarwal, Claudio Gentile, Teodor V. Marinov
- Abstract要約: 本研究では,コンテキスト的帯域幅(CB)問題について検討する。
我々は,そのバイアスの性質に頑健でありながら,そのような信号を利用する新しい枠組みを開発する。
- 参考スコア(独自算出の注目度): 34.58466163463977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study contextual bandit (CB) problems, where the user can sometimes
respond with the best action in a given context. Such an interaction arises,
for example, in text prediction or autocompletion settings, where a poor
suggestion is simply ignored and the user enters the desired text instead.
Crucially, this extra feedback is user-triggered on only a subset of the
contexts. We develop a new framework to leverage such signals, while being
robust to their biased nature. We also augment standard CB algorithms to
leverage the signal, and show improved regret guarantees for the resulting
algorithms under a variety of conditions on the helpfulness of and bias
inherent in this feedback.
- Abstract(参考訳): コンテキストバンディット(cb)問題について検討し,与えられたコンテキストにおいて,ユーザが時として最善のアクションで応答できる場合について検討した。
このようなインタラクションは、例えばテキスト予測や自動補完設定で発生し、まずい提案が単に無視され、ユーザが代わりに所望のテキストを入力する。
重要なことに、この追加のフィードバックは、コンテキストのサブセットのみにユーザによってトリガーされる。
我々は,そのバイアスの性質に頑健でありながら,そのような信号を利用する新しい枠組みを開発する。
また、この信号を活用するために標準cbアルゴリズムを補強し、フィードバックに固有の有用性とバイアスに関する様々な条件下で結果のアルゴリズムに対する後悔の保証を改善した。
関連論文リスト
- Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications [17.865143559133994]
ハーディングエフェクト」は、ユーザのフィードバックを歴史的評価に偏り、文脈的包帯に固有の偏りのないフィードバックの仮定を分解する。
本報告では, 群れ効果によるフィードバックバイアスに対処するために, 文脈的包帯の新たな変種を考案する。
TS-Confは,遺伝効果の負の影響を効果的に軽減し,学習の高速化と推奨精度の向上を図った。
論文 参考訳(メタデータ) (2024-08-26T17:20:34Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす
本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。
本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:59:55Z) - Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Follow-ups Also Matter: Improving Contextual Bandits via Post-serving
Contexts [31.33919659549256]
本稿では,ポストサーベイング・コンテクストに対する新しい文脈的バンディット問題を提案する。
我々のアルゴリズムである poLinUCB は、標準的な仮定の下では、厳格に後悔する。
合成データセットと実世界のデータセットの両方に対する大規模な実証テストは、サービス後コンテキストを活用するという大きなメリットを示している。
論文 参考訳(メタデータ) (2023-09-25T06:22:28Z) - Kernelized Offline Contextual Dueling Bandits [15.646879026749168]
本研究では、エージェントが人間のフィードバックを得るためにコンテキストを選択することがしばしばあるという事実を活用する。
我々は,この設定に対して高信頼度スタイルのアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-07-21T01:17:31Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。
我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。
我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文 参考訳(メタデータ) (2021-02-05T19:56:31Z) - Greedy Bandits with Sampled Context [0.0]
Greedy Bandits with Sampled Context (GB-SC) は、コンテキスト情報から事前の開発を行うためのコンテキスト多重武装バンディットの手法である。
以上の結果から,Mushroom環境において,期待される後悔と期待される累積的後悔の両面での競争性能が示された。
論文 参考訳(メタデータ) (2020-07-27T17:17:45Z) - Online learning with Corrupted context: Corrupted Contextual Bandits [19.675277307158435]
我々は文脈的盗賊問題の新しい変種を考える。
この問題は、臨床試験や広告レコメンデーションなどのオンライン設定によって動機付けられている。
本稿では,従来のマルチアームバンディット機構と標準的なコンテキスト的バンディットアプローチを組み合わせることを提案する。
論文 参考訳(メタデータ) (2020-06-26T19:53:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。