論文の概要: Exploiting Correlated Auxiliary Feedback in Parameterized Bandits
- arxiv url: http://arxiv.org/abs/2311.02715v1
- Date: Sun, 5 Nov 2023 17:27:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 16:17:49.036608
- Title: Exploiting Correlated Auxiliary Feedback in Parameterized Bandits
- Title(参考訳): パラメータ化帯域における爆発関連補助フィードバック
- Authors: Arun Verma, Zhongxiang Dai, Yao Shu, Bryan Kian Hsiang Low
- Abstract要約: そこで本研究では,学習者が追加の補助的フィードバックを観察できるパラメータ化帯域問題の新たな変種について検討する。
補助的なフィードバックは、ユーザのサービス評価(リワード)を観察し、サービス提供時間(補助的なフィードバック)などの追加情報を収集するオンラインプラットフォームなど、多くの現実的なアプリケーションで容易に利用可能である。
- 参考スコア(独自算出の注目度): 56.84649080789685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study a novel variant of the parameterized bandits problem in which the
learner can observe additional auxiliary feedback that is correlated with the
observed reward. The auxiliary feedback is readily available in many real-life
applications, e.g., an online platform that wants to recommend the best-rated
services to its users can observe the user's rating of service (rewards) and
collect additional information like service delivery time (auxiliary feedback).
In this paper, we first develop a method that exploits auxiliary feedback to
build a reward estimator with tight confidence bounds, leading to a smaller
regret. We then characterize the regret reduction in terms of the correlation
coefficient between reward and its auxiliary feedback. Experimental results in
different settings also verify the performance gain achieved by our proposed
method.
- Abstract(参考訳): そこで本研究では,学習者が追加の補助的フィードバックを観察できるパラメータ化帯域問題の新たな変種について検討する。
補助的なフィードバックは、ユーザのサービス評価(リワード)を観察し、サービス提供時間(補助的なフィードバック)などの追加情報を集めることができるように、ユーザに最高の評価サービスを推奨したいというオンラインプラットフォームなど、現実の多くのアプリケーションで容易に利用できる。
本稿では,まず,信頼度が強い報酬推定器を構築するための補助的フィードバックを利用する手法を開発し,より少ない後悔をもたらす。
次に,報酬と補助フィードバックの相関係数の観点から,後悔の軽減を特徴付ける。
異なる設定における実験結果は,提案手法による性能向上も検証する。
関連論文リスト
- Relevance feedback strategies for recall-oriented neural information
retrieval [0.0]
本研究は、レビューの労力を削減するための、よりリコール指向のアプローチを提案する。
具体的には、ユーザのフィードバックに基づいて、関連性ランキングを反復的にランク付けする。
その結果,本手法はベースラインアプローチに比べて17.85%から59.04%のレビュー工数を削減できることがわかった。
論文 参考訳(メタデータ) (2023-11-25T19:50:41Z) - Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from
Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。
従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。
所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-30T13:43:20Z) - Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。
多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文 参考訳(メタデータ) (2023-05-21T14:35:32Z) - Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。
本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。
従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文 参考訳(メタデータ) (2022-07-04T17:58:39Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - Incentivizing Exploration in Linear Bandits under Information Gap [50.220743323750035]
線形バンディットにおけるミオピックユーザに対するインセンティブ探索の問題点について検討した。
長期報酬を最大化するために、システムは、ユーザに探索的な腕を引くインセンティブを与えるための補償を提供する。
論文 参考訳(メタデータ) (2021-04-08T16:01:56Z) - User and Item-aware Estimation of Review Helpfulness [4.640835690336653]
有用性決定因子としてのレビューの性質における逸脱の役割について検討する。
本稿では,従来のものを拡張した新しい有用性推定モデルを提案する。
そこで本モデルは,意思決定におけるユーザフィードバックの選択に有効なツールである。
論文 参考訳(メタデータ) (2020-11-20T15:35:56Z) - Counterfactual Evaluation of Slate Recommendations with Sequential
Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。
したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。
そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文 参考訳(メタデータ) (2020-07-25T17:58:01Z) - Fairness-Aware Explainable Recommendation over Knowledge Graphs [73.81994676695346]
ユーザのアクティビティのレベルに応じて異なるグループのユーザを分析し、異なるグループ間での推奨パフォーマンスにバイアスが存在することを確認する。
不活性なユーザは、不活性なユーザのためのトレーニングデータが不十分なため、不満足なレコメンデーションを受けやすい可能性がある。
本稿では、知識グラフに対する説明可能な推奨という文脈で、この問題を緩和するために再ランク付けすることで、公平性に制約されたアプローチを提案する。
論文 参考訳(メタデータ) (2020-06-03T05:04:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。