論文の概要: Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback
- arxiv url: http://arxiv.org/abs/2009.07518v1
- Date: Wed, 16 Sep 2020 07:32:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 22:53:15.925367
- Title: Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback
- Title(参考訳): 部分的バンディットと半バンド: ユーザからのフィードバックを最大限に活用する
- Authors: Alexandre Letard, Tassadit Amghar, Olivier Camp, Nicolas Gutowski
- Abstract要約: 本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works on Multi-Armed Bandits (MAB) and Combinatorial Multi-Armed
Bandits (COM-MAB) show good results on a global accuracy metric. This can be
achieved, in the case of recommender systems, with personalization. However,
with a combinatorial online learning approach, personalization implies a large
amount of user feedbacks. Such feedbacks can be hard to acquire when users need
to be directly and frequently solicited. For a number of fields of activities
undergoing the digitization of their business, online learning is unavoidable.
Thus, a number of approaches allowing implicit user feedback retrieval have
been implemented. Nevertheless, this implicit feedback can be misleading or
inefficient for the agent's learning. Herein, we propose a novel approach
reducing the number of explicit feedbacks required by Combinatorial Multi Armed
bandit (COM-MAB) algorithms while providing similar levels of global accuracy
and learning efficiency to classical competitive methods. In this paper we
present a novel approach for considering user feedback and evaluate it using
three distinct strategies. Despite a limited number of feedbacks returned by
users (as low as 20% of the total), our approach obtains similar results to
those of state of the art approaches.
- Abstract(参考訳): 近年のMultial Multi-Armed Bandits (MAB) と Combinatorial Multi-Armed Bandits (COM-MAB) の研究は、グローバルな精度測定において良い結果を示している。
これは、レコメンダシステムの場合、パーソナライゼーションによって実現できます。
しかし、組合せオンライン学習アプローチでは、パーソナライゼーションは大量のユーザフィードバックを意味する。
このようなフィードバックは、ユーザが直接頻繁に要求される必要がある場合、取得が困難になる可能性がある。
ビジネスのデジタル化を行う多くの活動分野において、オンライン学習は避けられない。
このように、暗黙的なユーザフィードバックを検索できるアプローチがいくつか実装されている。
それにもかかわらず、この暗黙のフィードバックはエージェントの学習において誤解を招くか非効率である。
本稿では, Combinatorial Multi Armed Bandit (COM-MAB) アルゴリズムが必要とする明示的なフィードバック数を削減し,グローバルな精度と学習効率を従来の競合手法と同等に向上させる手法を提案する。
本稿では,ユーザフィードバックを考察し,三つの戦略を用いて評価する新しい手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
関連論文リスト
- Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Kernelized Offline Contextual Dueling Bandits [15.646879026749168]
本研究では、エージェントが人間のフィードバックを得るためにコンテキストを選択することがしばしばあるという事実を活用する。
我々は,この設定に対して高信頼度スタイルのアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-07-21T01:17:31Z) - Multi-View Interactive Collaborative Filtering [0.0]
本稿では、評価情報と文脈情報の両方を組み込んだ、新しいオンライン潜在因子推薦アルゴリズムを提案する。
MV-ICTRは、コールドスタートユーザやアイテムの比率が高いデータセットの性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-05-14T20:31:37Z) - Multi-Action Dialog Policy Learning from Logged User Feedback [28.4271696269512]
マルチアクションダイアログポリシーは、ターン毎に複数のアトミックダイアログアクションを生成する。
データ制限のため、既存のポリシーモデルは、目に見えないダイアログフローに対してあまり一般化しない。
暗黙的かつ暗黙的なターンレベルのユーザフィードバックでマルチアクションダイアログポリシー学習を改善するためにBanditMatchを提案する。
論文 参考訳(メタデータ) (2023-02-27T04:01:28Z) - The Minority Matters: A Diversity-Promoting Collaborative Metric
Learning Algorithm [154.47590401735323]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:02:18Z) - Adapting Triplet Importance of Implicit Feedback for Personalized
Recommendation [43.85549591503592]
インプシットフィードバックは、パーソナライズされたレコメンデーションサービスを開発するために頻繁に使用される。
本稿では,Triplet Importance Learning (TIL) という新たなトレーニングフレームワークを提案する。
提案手法は,トップkレコメンデーションのRecall@kにおいて,既存モデルよりも3~21%優れていた。
論文 参考訳(メタデータ) (2022-08-02T19:44:47Z) - Incentivizing Combinatorial Bandit Exploration [87.08827496301839]
自己関心のあるユーザに対してレコメンデーションシステムでアクションを推奨するバンディットアルゴリズムを考える。
ユーザーは他のアクションを自由に選択でき、アルゴリズムの推奨に従うためにインセンティブを得る必要がある。
ユーザは悪用を好むが、アルゴリズムは、前のユーザから収集した情報を活用することで、探索にインセンティブを与えることができる。
論文 参考訳(メタデータ) (2022-06-01T13:46:25Z) - Modeling Attrition in Recommender Systems with Departing Bandits [84.85560764274399]
政策に依存した地平線を捉えた新しいマルチアームバンディット構成を提案する。
まず、全てのユーザが同じタイプを共有しているケースに対処し、最近の UCB ベースのアルゴリズムが最適であることを実証する。
次に、ユーザが2つのタイプに分けられる、より困難なケースを前進させます。
論文 参考訳(メタデータ) (2022-03-25T02:30:54Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - BanditMF: Multi-Armed Bandit Based Matrix Factorization Recommender
System [0.0]
マルチアーム・バンディット(MAB)は、探索と搾取のバランスをとるために原則化されたオンライン学習アプローチを提供する。
協調フィルタリング(CF)は、おそらく推奨システムにおいて最も早く、最も影響力のある手法である。
BanditMFは、マルチアームバンディットアルゴリズムと協調フィルタリングの2つの課題に対処するように設計されている。
論文 参考訳(メタデータ) (2021-06-21T07:35:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。