論文の概要: Batched Online Contextual Sparse Bandits with Sequential Inclusion of Features
- arxiv url: http://arxiv.org/abs/2409.09199v1
- Date: Fri, 13 Sep 2024 21:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:59:04.685291
- Title: Batched Online Contextual Sparse Bandits with Sequential Inclusion of Features
- Title(参考訳): 連続的特徴包含を伴うオンラインコンテキストスパース帯域のバッチ化
- Authors: Rowan Swiers, Subash Prabanantham, Andrew Maher,
- Abstract要約: マルチアームバンド(MAB)は、オンラインプラットフォームやeコマースにおいて、パーソナライズされたユーザーエクスペリエンスのための意思決定を最適化するために使用される。
我々は、新しいアルゴリズムである Online Batched Sequential Inclusion (OBSI) を用いて、意思決定プロセスから無関係な特徴を排除し、公正性の課題に対処する。
合成データを用いた実験により, OBSI は他のアルゴリズムと比較して, 後悔, 使用した特徴の関連性, 計算能力の面で優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-armed Bandits (MABs) are increasingly employed in online platforms and e-commerce to optimize decision making for personalized user experiences. In this work, we focus on the Contextual Bandit problem with linear rewards, under conditions of sparsity and batched data. We address the challenge of fairness by excluding irrelevant features from decision-making processes using a novel algorithm, Online Batched Sequential Inclusion (OBSI), which sequentially includes features as confidence in their impact on the reward increases. Our experiments on synthetic data show the superior performance of OBSI compared to other algorithms in terms of regret, relevance of features used, and compute.
- Abstract(参考訳): マルチアームバンド(MAB)は、パーソナライズされたユーザーエクスペリエンスのための意思決定を最適化するために、オンラインプラットフォームやeコマースにますます採用されている。
本研究では,線形報酬を用いたコンテキスト帯域問題に焦点をあてる。
本稿では,新たなアルゴリズムである Online Batched Sequential Inclusion (OBSI, Online Batched Sequential Inclusion, OBSI) を用いて,意思決定プロセスから無関係な特徴を排除し,公平性に対処する。
合成データを用いた実験により, OBSI は他のアルゴリズムと比較して, 後悔, 使用する特徴の関連性, 計算能力の面で優れた性能を示した。
関連論文リスト
- Prompt Tuning as User Inherent Profile Inference Machine [53.78398656789463]
本稿では,ユーザプロファイルの推測にプロンプトチューニングを用いるUserIP-Tuningを提案する。
プロファイル量子化コードブックは、プロファイル埋め込みによるモダリティギャップを協調IDにブリッジする。
4つの公開データセットの実験では、UserIP-Tuningは最先端のレコメンデーションアルゴリズムを上回っている。
論文 参考訳(メタデータ) (2024-08-13T02:25:46Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Privacy-preserving Federated Primal-dual Learning for Non-convex and Non-smooth Problems with Model Sparsification [51.04894019092156]
FL(Federated Learning)は,FLオーケストレーション(PS)の下でクライアント上でモデルをトレーニングする,急速に成長する領域として認識されている。
本稿では,非滑らかなFL問題に対して,新しい一次分離アルゴリズムを提案し,保証する。
その独特な洞察力のある性質とその分析も提示される。
論文 参考訳(メタデータ) (2023-10-30T14:15:47Z) - Stochastic Rising Bandits [40.32303434592863]
本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。
この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。
我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文 参考訳(メタデータ) (2022-12-07T17:30:45Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Output-Weighted Sampling for Multi-Armed Bandits with Extreme Payoffs [11.1546439770774]
極度のペイオフを伴うバンディット問題におけるオンライン意思決定のための新しいタイプの獲得機能を提示する。
我々は,最も関連性が高いと考えられる盗賊を探索する新しいタイプの上位信頼境界(UCB)取得関数を定式化する。
論文 参考訳(メタデータ) (2021-02-19T18:36:03Z) - Deep Learning as a Competitive Feature-Free Approach for Automated
Algorithm Selection on the Traveling Salesperson Problem [0.0]
我々は、有名なユークリッド旅行セールスマン問題(TSP)に焦点を当てる。
私たちは1,000のノードでインスタンスを進化させ、そこではソルバがパフォーマンスプロファイルを強く示します。
特徴のないディープニューラルネットワークに基づくアプローチは、インスタンスの視覚的表現のみに基づいており、すでに古典的なASモデルの結果と一致していることを示す。
論文 参考訳(メタデータ) (2020-06-29T12:15:35Z) - Bandits with Partially Observable Confounded Data [74.04376842070624]
この問題は,サイド情報を用いたバンドイット問題の変種と密接に関連していることを示す。
本稿では,予測情報を活用する線形帯域幅アルゴリズムを構築し,残差を証明した。
この結果から,オンライン学習アルゴリズムにおいて,オフラインデータの集約が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2020-06-11T18:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。