Fugu-MT 論文翻訳(概要): Leveraging User-Triggered Supervision in Contextual Bandits

論文の概要: Leveraging User-Triggered Supervision in Contextual Bandits

arxiv url: http://arxiv.org/abs/2302.03784v1
Date: Tue, 7 Feb 2023 22:42:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-09 18:00:30.935166
Title: Leveraging User-Triggered Supervision in Contextual Bandits
Title（参考訳）: コンテキスト・バンディットにおけるユーザトリガード・スーパーバイザリングの活用
Authors: Alekh Agarwal, Claudio Gentile, Teodor V. Marinov
Abstract要約: 本研究では,コンテキスト的帯域幅(CB)問題について検討する。我々は,そのバイアスの性質に頑健でありながら,そのような信号を利用する新しい枠組みを開発する。
参考スコア（独自算出の注目度）: 34.58466163463977
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study contextual bandit (CB) problems, where the user can sometimes respond with the best action in a given context. Such an interaction arises, for example, in text prediction or autocompletion settings, where a poor suggestion is simply ignored and the user enters the desired text instead. Crucially, this extra feedback is user-triggered on only a subset of the contexts. We develop a new framework to leverage such signals, while being robust to their biased nature. We also augment standard CB algorithms to leverage the signal, and show improved regret guarantees for the resulting algorithms under a variety of conditions on the helpfulness of and bias inherent in this feedback.
Abstract（参考訳）: コンテキストバンディット(cb)問題について検討し,与えられたコンテキストにおいて,ユーザが時として最善のアクションで応答できる場合について検討した。このようなインタラクションは、例えばテキスト予測や自動補完設定で発生し、まずい提案が単に無視され、ユーザが代わりに所望のテキストを入力する。重要なことに、この追加のフィードバックは、コンテキストのサブセットのみにユーザによってトリガーされる。我々は,そのバイアスの性質に頑健でありながら,そのような信号を利用する新しい枠組みを開発する。また、この信号を活用するために標準cbアルゴリズムを補強し、フィードバックに固有の有用性とバイアスに関する様々な条件下で結果のアルゴリズムに対する後悔の保証を改善した。

関連論文リスト

A Simple Reduction Scheme for Constrained Contextual Bandits with Adversarial Contexts via Regression [7.798233121583888]
制約付き文脈帯域幅を逆選択したコンテキストで検討し、各アクションがランダムな報酬を与え、ランダムなコストを発生させる。我々は、観測された文脈に基づいて、期待が既知の関数クラスに属する固定分布から、報酬とコストを独立に引き出すという標準的な実現可能性仮定を採用する。
論文参考訳（メタデータ） (2026-02-04T20:19:55Z)
Learning to Extract Context for Context-Aware LLM Inference [60.376872353918394]
大型言語モデル(LLM)へのユーザープロンプトは曖昧か不明確であることが多い。ユーザの意図、事前知識、リスク要因によって形成されるコンテキスト的手がかりは、適切な応答を構成するものに影響を与える。本稿では,ユーザプロンプト自体からコンテキスト情報を抽出し,活用するフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-12T19:10:08Z)
Contextual Bandit with Herding Effects: Algorithms and Recommendation Applications [17.865143559133994]
ハーディングエフェクト」は、ユーザのフィードバックを歴史的評価に偏り、文脈的包帯に固有の偏りのないフィードバックの仮定を分解する。本報告では, 群れ効果によるフィードバックバイアスに対処するために, 文脈的包帯の新たな変種を考案する。 TS-Confは,遺伝効果の負の影響を効果的に軽減し,学習の高速化と推奨精度の向上を図った。
論文参考訳（メタデータ） (2024-08-26T17:20:34Z)
Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文参考訳（メタデータ） (2024-06-24T17:19:34Z)
Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback [58.66941279460248]
人からのフィードバックから学ぶことは、大言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす本稿では,本問題の領域内モデルについて考察する。-文脈的デュエルバンディットと敵対的フィードバックを併用し,真の嗜好ラベルを敵によって反転させることができる。本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(アルゴ)を提案する。
論文参考訳（メタデータ） (2024-04-16T17:59:55Z)
Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-21T18:28:43Z)
Follow-ups Also Matter: Improving Contextual Bandits via Post-serving Contexts [31.33919659549256]
本稿では,ポストサーベイング・コンテクストに対する新しい文脈的バンディット問題を提案する。我々のアルゴリズムである poLinUCB は、標準的な仮定の下では、厳格に後悔する。合成データセットと実世界のデータセットの両方に対する大規模な実証テストは、サービス後コンテキストを活用するという大きなメリットを示している。
論文参考訳（メタデータ） (2023-09-25T06:22:28Z)
Kernelized Offline Contextual Dueling Bandits [15.646879026749168]
本研究では、エージェントが人間のフィードバックを得るためにコンテキストを選択することがしばしばあるという事実を活用する。我々は,この設定に対して高信頼度スタイルのアルゴリズムを提案し,後悔の束縛を証明した。
論文参考訳（メタデータ） (2023-07-21T01:17:31Z)
Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文参考訳（メタデータ） (2021-03-15T01:51:41Z)
Confidence-Budget Matching for Sequential Budgeted Learning [69.77435313099366]
問合せ予算で意思決定問題を定式化する。我々は,多腕バンディット,線形バンディット,強化学習問題を考察する。我々は,CBMに基づくアルゴリズムが逆性の存在下で良好に動作することを示す。
論文参考訳（メタデータ） (2021-02-05T19:56:31Z)
Greedy Bandits with Sampled Context [0.0]
Greedy Bandits with Sampled Context (GB-SC) は、コンテキスト情報から事前の開発を行うためのコンテキスト多重武装バンディットの手法である。以上の結果から,Mushroom環境において,期待される後悔と期待される累積的後悔の両面での競争性能が示された。
論文参考訳（メタデータ） (2020-07-27T17:17:45Z)
Online learning with Corrupted context: Corrupted Contextual Bandits [19.675277307158435]
我々は文脈的盗賊問題の新しい変種を考える。この問題は、臨床試験や広告レコメンデーションなどのオンライン設定によって動機付けられている。本稿では,従来のマルチアームバンディット機構と標準的なコンテキスト的バンディットアプローチを組み合わせることを提案する。
論文参考訳（メタデータ） (2020-06-26T19:53:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。