Fugu-MT 論文翻訳(概要): Leveraging heterogeneous spillover in maximizing contextual bandit rewards

論文の概要: Leveraging heterogeneous spillover in maximizing contextual bandit rewards

arxiv url: http://arxiv.org/abs/2310.10259v2
Date: Fri, 24 Jan 2025 18:30:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-27 20:40:39.347443
Title: Leveraging heterogeneous spillover in maximizing contextual bandit rewards
Title（参考訳）: 文脈的包帯報酬の最大化における異種流出の活用
Authors: Ahmed Sayeed Faruk, Elena Zheleva,
Abstract要約: このような不均一な流出を、文脈的マルチアームバンディットが考慮できるフレームワークを提案する。私たちのフレームワークは、既存の最先端ソリューションよりもはるかに高い報酬をもたらします。
参考スコア（独自算出の注目度）: 10.609670658904562
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recommender systems relying on contextual multi-armed bandits continuously improve relevant item recommendations by taking into account the contextual information. The objective of bandit algorithms is to learn the best arm (e.g., best item to recommend) for each user and thus maximize the cumulative rewards from user engagement with the recommendations. The context that these algorithms typically consider are the user and item attributes. However, in the context of social networks where $\textit{the action of one user can influence the actions and rewards of other users,}$ neighbors' actions are also a very important context, as they can have not only predictive power but also can impact future rewards through spillover. Moreover, influence susceptibility can vary for different people based on their preferences and the closeness of ties to other users which leads to heterogeneity in the spillover effects. Here, we present a framework that allows contextual multi-armed bandits to account for such heterogeneous spillovers when choosing the best arm for each user. Our experiments on several semi-synthetic and real-world datasets show that our framework leads to significantly higher rewards than existing state-of-the-art solutions that ignore the network information and potential spillover.
Abstract（参考訳）: コンテキスト情報を考慮し、関連項目のレコメンデーションを継続的に改善する。バンディットアルゴリズムの目的は、各ユーザに対して最適なアーム(例えば、推奨すべきベストアイテム)を学習し、ユーザエンゲージメントとレコメンデーションとの累積報酬を最大化することである。これらのアルゴリズムが一般的に考慮するコンテキストは、ユーザー属性とアイテム属性である。しかし、あるユーザのアクションが他のユーザのアクションや報酬に影響を及ぼすようなソーシャルネットワークのコンテキストでは、近隣人のアクションは予測力を持つだけでなく、流出によって将来の報酬に影響を与える可能性があるため、非常に重要なコンテキストである。さらに, 利用者の嗜好や, 利用者との結びつきの密接さにより, 影響の受けやすさが異なっており, 流出効果の異質性につながる可能性がある。本稿では,各ユーザに対して最適なアームを選択する際に,コンテキスト的マルチアームバンディットを考慮に入れたフレームワークを提案する。いくつかの半合成および実世界のデータセットに対する我々の実験は、我々のフレームワークがネットワーク情報や潜在的な流出を無視する既存の最先端ソリューションよりもはるかに高い報酬をもたらすことを示している。

関連論文リスト

Envious Explore and Exploit [8.029049649310213]
エンビーの経済的概念を用いた探索・探索機構の社会的効果について検討した。各ラウンドが複数のセッションで構成され,報酬が1ラウンド毎に1回実現される,マルチアームのバンディットのようなモデルを提案する。欠点としては、後期から後期のユーザーがアーリー・ツー・アーリーのユーザーによって収集された情報を楽しむためである。
論文参考訳（メタデータ） (2025-02-18T12:00:35Z)
Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-04T07:55:41Z)
Learning Recommender Systems with Soft Target: A Decoupled Perspective [49.83787742587449]
そこで本研究では,ソフトラベルを活用することで,目的を2つの側面として捉えるために,分離されたソフトラベル最適化フレームワークを提案する。本稿では,ラベル伝搬アルゴリズムをモデル化したソフトラベル生成アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-09T04:20:15Z)
The Nah Bandit: Modeling User Non-compliance in Recommendation Systems [2.421459418045937]
Expert with Clustering(EWC)は、推奨オプションと推奨されないオプションの両方からのフィードバックを取り入れた階層的なアプローチで、ユーザの好み学習を加速する。 EWCは教師付き学習と伝統的な文脈的バンディットアプローチの両方を上回ります。この研究は、より効果的なレコメンデーションシステムのための堅牢なフレームワークを提供する、Nah Banditにおける将来の研究の基礎を築いた。
論文参考訳（メタデータ） (2024-08-15T03:01:02Z)
Relevance meets Diversity: A User-Centric Framework for Knowledge Exploration through Recommendations [15.143224593682012]
本稿では,コプラ関数による妥当性と多様性を組み合わせた新しいレコメンデーション戦略を提案する。我々は,システムと対話しながらユーザから得た知識量のサロゲートとして多様性を利用する。我々の戦略は、最先端のライバル数社を上回っている。
論文参考訳（メタデータ） (2024-08-07T13:48:24Z)
Neural Dueling Bandits: Preference-Based Optimization with Human Feedback [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。また、理論的結果を文脈的包括的問題に拡張し、二元的フィードバックは、それ自体は非自明な貢献である。
論文参考訳（メタデータ） (2024-07-24T09:23:22Z)
Beyond Item Dissimilarities: Diversifying by Intent in Recommender Systems [20.04619904064599]
我々は,提案システムの最終段階を対象とした確率論的意図に基づく全ページ多様化フレームワークを開発する。さまざまな意図のライブ実験は、私たちのフレームワークがデイリーアクティブユーザーを増やし、全体のユーザーを楽しませていることを示している。
論文参考訳（メタデータ） (2024-05-20T18:52:33Z)
Contrastive Learning Method for Sequential Recommendation based on Multi-Intention Disentanglement [5.734747179463411]
MIDCL(Multi-Intention Disentanglement)に基づくコントラスト学習シーケンシャルレコメンデーション手法を提案する。私たちの仕事では、意図は動的で多様なものとして認識され、ユーザの振る舞いは、しばしば現在のマルチインテンションによって駆動されます。本稿では,最も関連性の高いユーザの対話的意図の探索と,正のサンプル対の相互情報の最大化のための2種類のコントラスト学習パラダイムを提案する。
論文参考訳（メタデータ） (2024-04-28T15:13:36Z)
$\alpha$-Fair Contextual Bandits [10.74025233418392]
コンテキストバンディットアルゴリズムは、レコメンデータシステム、臨床試験、最適なポートフォリオ選択など、多くのアプリケーションの中核にある。文脈的バンディット文学で研究される最も一般的な問題の1つは、各ラウンドにおける報酬の合計を最大化することである。本稿では,大域的な$alpha$-fairtextual Con Bandits問題を考える。
論文参考訳（メタデータ） (2023-10-22T03:42:59Z)
Incentive-Aware Recommender Systems in Two-Sided Markets [49.692453629365204]
最適性能を達成しつつエージェントのインセンティブと整合する新しいレコメンデータシステムを提案する。我々のフレームワークは、このインセンティブを意識したシステムを、両側市場におけるマルチエージェントバンディット問題としてモデル化する。どちらのアルゴリズムも、エージェントが過剰な露出から保護する、ポストフェアネス基準を満たす。
論文参考訳（メタデータ） (2022-11-23T22:20:12Z)
Interactive Recommendations for Optimal Allocations in Markets with Constraints [12.580391999838128]
本稿では,システムプロバイダがユーザへのレコメンデーションの質を高めるためのインタラクティブなフレームワークを提案する。我々は,協調フィルタリング,帯域幅,最適資源配分といった手法を用いた統合的アプローチを採用する。人工マトリックスと実世界のデータに関する実証研究は,本手法の有効性と性能を実証している。
論文参考訳（メタデータ） (2022-07-08T22:16:51Z)
Selectively Contextual Bandits [11.438194383787604]
本稿では,個人化のメリットを保ちながら,ユーザ間の待遇の共通性を高めつつ,新たなオンライン学習アルゴリズムを提案する。提案手法は文脈自由なマルチアームバンディットアルゴリズムと文脈自由なマルチアームバンディットを選択的に補間する。提案手法を,公開データセットを用いた分類設定で評価し,ハイブリットポリシーの利点を示す。
論文参考訳（メタデータ） (2022-05-09T19:47:46Z)
Modeling Attrition in Recommender Systems with Departing Bandits [84.85560764274399]
政策に依存した地平線を捉えた新しいマルチアームバンディット構成を提案する。まず、全てのユーザが同じタイプを共有しているケースに対処し、最近の UCB ベースのアルゴリズムが最適であることを実証する。次に、ユーザが2つのタイプに分けられる、より困難なケースを前進させます。
論文参考訳（メタデータ） (2022-03-25T02:30:54Z)
Coordinated Attacks against Contextual Bandits: Fundamental Limits and Defense Mechanisms [75.17357040707347]
オンラインレコメンデーションシステムによってモチベーションされた我々は,文脈的包帯における最適政策の発見問題を提案する。目標は、優れたユーザに対する報酬を可能な限り少ないユーザインタラクションで最大化するポリシーを、しっかりと学習することだ。効率的なロバストな平均推定器を用いることで、$tildeO(min(S,A)cdot alpha/epsilon2)$ upper-boundを実現できることを示す。
論文参考訳（メタデータ） (2022-01-30T01:45:13Z)
BanditMF: Multi-Armed Bandit Based Matrix Factorization Recommender System [0.0]
マルチアーム・バンディット(MAB)は、探索と搾取のバランスをとるために原則化されたオンライン学習アプローチを提供する。協調フィルタリング(CF)は、おそらく推奨システムにおいて最も早く、最も影響力のある手法である。 BanditMFは、マルチアームバンディットアルゴリズムと協調フィルタリングの2つの課題に対処するように設計されている。
論文参考訳（メタデータ） (2021-06-21T07:35:39Z)
Partial Bandit and Semi-Bandit: Making the Most Out of Scarce Users' Feedback [62.997667081978825]
本稿では,ユーザのフィードバックを考慮し,3つの戦略を用いて評価する手法を提案する。ユーザからのフィードバックが制限されているにも関わらず(全体の20%以下)、我々の手法は最先端のアプローチと同じような結果が得られる。
論文参考訳（メタデータ） (2020-09-16T07:32:51Z)
Fairness-Aware Explainable Recommendation over Knowledge Graphs [73.81994676695346]
ユーザのアクティビティのレベルに応じて異なるグループのユーザを分析し、異なるグループ間での推奨パフォーマンスにバイアスが存在することを確認する。不活性なユーザは、不活性なユーザのためのトレーニングデータが不十分なため、不満足なレコメンデーションを受けやすい可能性がある。本稿では、知識グラフに対する説明可能な推奨という文脈で、この問題を緩和するために再ランク付けすることで、公平性に制約されたアプローチを提案する。
論文参考訳（メタデータ） (2020-06-03T05:04:38Z)
Reward Constrained Interactive Recommendation with Natural Language Feedback [158.8095688415973]
制約強化強化学習(RL)フレームワークを提案する。具体的には,ユーザの過去の嗜好に反するレコメンデーションを検出するために,識別器を利用する。提案するフレームワークは汎用的であり,制約付きテキスト生成のタスクにさらに拡張されている。
論文参考訳（メタデータ） (2020-05-04T16:23:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。