論文の概要: Selectively Contextual Bandits
- arxiv url: http://arxiv.org/abs/2205.04528v1
- Date: Mon, 9 May 2022 19:47:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-15 01:37:58.217008
- Title: Selectively Contextual Bandits
- Title(参考訳): 選択的にコンテクストなバンディット
- Authors: Claudia Roberts and Maria Dimakopoulou and Qifeng Qiao and Ashok
Chandrashekhar and Tony Jebara
- Abstract要約: 本稿では,個人化のメリットを保ちながら,ユーザ間の待遇の共通性を高めつつ,新たなオンライン学習アルゴリズムを提案する。
提案手法は文脈自由なマルチアームバンディットアルゴリズムと文脈自由なマルチアームバンディットを選択的に補間する。
提案手法を,公開データセットを用いた分類設定で評価し,ハイブリットポリシーの利点を示す。
- 参考スコア(独自算出の注目度): 11.438194383787604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contextual bandits are widely used in industrial personalization systems.
These online learning frameworks learn a treatment assignment policy in the
presence of treatment effects that vary with the observed contextual features
of the users. While personalization creates a rich user experience that reflect
individual interests, there are benefits of a shared experience across a
community that enable participation in the zeitgeist. Such benefits are
emergent through network effects and are not captured in regret metrics
typically employed in evaluating bandits. To balance these needs, we propose a
new online learning algorithm that preserves benefits of personalization while
increasing the commonality in treatments across users. Our approach selectively
interpolates between a contextual bandit algorithm and a context-free multi-arm
bandit and leverages the contextual information for a treatment decision only
if it promises significant gains. Apart from helping users of personalization
systems balance their experience between the individualized and shared,
simplifying the treatment assignment policy by making it selectively reliant on
the context can help improve the rate of learning in some cases. We evaluate
our approach in a classification setting using public datasets and show the
benefits of the hybrid policy.
- Abstract(参考訳): 文脈帯は産業パーソナライズシステムで広く使われている。
これらのオンライン学習フレームワークは、ユーザの観察した文脈的特徴と異なる治療効果の存在下で、治療課題ポリシーを学習する。
パーソナライゼーションは個人の関心を反映したリッチなユーザエクスペリエンスを生み出すが、コミュニティ全体で共有エクスペリエンスの利点があり、セグジストへの参加を可能にする。
このような利点はネットワーク効果によって発生し、典型的には帯域幅の評価に使用される後悔の指標では捉えられない。
これらのニーズのバランスをとるために,我々はパーソナライゼーションのメリットを保ちつつ,ユーザ間の治療の共通性を高める新しいオンライン学習アルゴリズムを提案する。
本手法はコンテキストバンディットアルゴリズムとコンテキストフリーマルチアームバンディットを選択的に補間し,有意な利益が期待できる場合に限り,治療決定にコンテキスト情報を活用する。
パーソナライズシステムの利用者が個別化と共有のバランスをとるのを助けることとは別に、コンテキストに選択的に依存させることで治療課題ポリシーを簡素化することは、場合によっては学習率の向上に寄与する。
我々は,公開データセットを用いた分類環境でのアプローチを評価し,ハイブリッドポリシーの利点を示す。
関連論文リスト
- Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。
よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文 参考訳(メタデータ) (2025-02-05T17:14:45Z) - Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。
本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-04T07:55:41Z) - Quantifying User Coherence: A Unified Framework for Cross-Domain Recommendation Analysis [69.37718774071793]
本稿では,レコメンデーションシステムを理解するための新しい情報理論手法を提案する。
9つのデータセットで7つのレコメンデーションアルゴリズムを評価し、測定値と標準的なパフォーマンス指標の関係を明らかにする。
論文 参考訳(メタデータ) (2024-10-03T13:02:07Z) - Neural Contextual Bandits for Personalized Recommendation [49.85090929163639]
本チュートリアルでは、パーソナライズされたレコメンデーションのための強力なフレームワークとして、コンテキスト帯について検討する。
我々は、リコメンデーターシステムにおける「マシュー効果」を緩和するために、文脈的盗賊の探索的視点に焦点を当てる。
従来の線形文脈包帯に加えて、我々は神経文脈包帯にも焦点をあてる。
論文 参考訳(メタデータ) (2023-12-21T17:03:26Z) - Leveraging heterogeneous spillover in maximizing contextual bandit rewards [10.609670658904562]
このような不均一な流出を、文脈的マルチアームバンディットが考慮できるフレームワークを提案する。
私たちのフレームワークは、既存の最先端ソリューションよりもはるかに高い報酬をもたらします。
論文 参考訳(メタデータ) (2023-10-16T10:34:41Z) - Kernelized Offline Contextual Dueling Bandits [15.646879026749168]
本研究では、エージェントが人間のフィードバックを得るためにコンテキストを選択することがしばしばあるという事実を活用する。
我々は,この設定に対して高信頼度スタイルのアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-07-21T01:17:31Z) - Multi-View Interactive Collaborative Filtering [0.0]
本稿では、評価情報と文脈情報の両方を組み込んだ、新しいオンライン潜在因子推薦アルゴリズムを提案する。
MV-ICTRは、コールドスタートユーザやアイテムの比率が高いデータセットの性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-05-14T20:31:37Z) - Joint Multisided Exposure Fairness for Recommendation [76.75990595228666]
本稿では,消費者と生産者の両面から共同で問題をモデル化する,露出公正度尺度のファミリを定式化する。
具体的には、双方の利害関係者に対するグループ属性について、個別のユーザや項目を超えて、より体系的なバイアスを推奨するフェアネスの懸念を識別し緩和する。
論文 参考訳(メタデータ) (2022-04-29T19:13:23Z) - Local Clustering in Contextual Multi-Armed Bandits [44.11480686973274]
コンテキスト型マルチアームバンディット(MAB)におけるユーザクラスタの識別について検討する。
本稿では,局所クラスタリング手法を組み込んだ帯域幅アルゴリズム LOCB を提案する。
提案アルゴリズムは,最先端のベースラインよりも優れた様々な側面から評価する。
論文 参考訳(メタデータ) (2021-02-26T21:59:29Z) - Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users'
Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。
ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文 参考訳(メタデータ) (2020-09-16T07:32:51Z) - A Robust Reputation-based Group Ranking System and its Resistance to
Bribery [8.300507994596416]
マルチパートレーティングワークを利用した評価に基づく新しいランキングシステムを提案する。
贈賄に対する抵抗性と最適な贈賄戦略の設計方法について検討する。
論文 参考訳(メタデータ) (2020-04-13T22:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。