論文の概要: Batched Online Contextual Sparse Bandits with Sequential Inclusion of Features
- arxiv url: http://arxiv.org/abs/2409.09199v1
- Date: Fri, 13 Sep 2024 21:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:59:04.685291
- Title: Batched Online Contextual Sparse Bandits with Sequential Inclusion of Features
- Title(参考訳): 連続的特徴包含を伴うオンラインコンテキストスパース帯域のバッチ化
- Authors: Rowan Swiers, Subash Prabanantham, Andrew Maher,
- Abstract要約: マルチアームバンド(MAB)は、オンラインプラットフォームやeコマースにおいて、パーソナライズされたユーザーエクスペリエンスのための意思決定を最適化するために使用される。
我々は、新しいアルゴリズムである Online Batched Sequential Inclusion (OBSI) を用いて、意思決定プロセスから無関係な特徴を排除し、公正性の課題に対処する。
合成データを用いた実験により, OBSI は他のアルゴリズムと比較して, 後悔, 使用した特徴の関連性, 計算能力の面で優れた性能を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-armed Bandits (MABs) are increasingly employed in online platforms and e-commerce to optimize decision making for personalized user experiences. In this work, we focus on the Contextual Bandit problem with linear rewards, under conditions of sparsity and batched data. We address the challenge of fairness by excluding irrelevant features from decision-making processes using a novel algorithm, Online Batched Sequential Inclusion (OBSI), which sequentially includes features as confidence in their impact on the reward increases. Our experiments on synthetic data show the superior performance of OBSI compared to other algorithms in terms of regret, relevance of features used, and compute.
- Abstract(参考訳): マルチアームバンド(MAB)は、パーソナライズされたユーザーエクスペリエンスのための意思決定を最適化するために、オンラインプラットフォームやeコマースにますます採用されている。
本研究では,線形報酬を用いたコンテキスト帯域問題に焦点をあてる。
本稿では,新たなアルゴリズムである Online Batched Sequential Inclusion (OBSI, Online Batched Sequential Inclusion, OBSI) を用いて,意思決定プロセスから無関係な特徴を排除し,公平性に対処する。
合成データを用いた実験により, OBSI は他のアルゴリズムと比較して, 後悔, 使用する特徴の関連性, 計算能力の面で優れた性能を示した。
関連論文リスト
- Offline Learning for Combinatorial Multi-armed Bandits [56.96242764723241]
Off-CMABはCMABの最初のオフライン学習フレームワークである。
Off-CMABは悲観的な報酬推定と解法を組み合わせる。
合成および実世界のデータセットの実験は、CLCBの優れた性能を強調している。
論文 参考訳(メタデータ) (2025-01-31T16:56:18Z) - WAPTS: A Weighted Allocation Probability Adjusted Thompson Sampling Algorithm for High-Dimensional and Sparse Experiment Settings [10.565276803897325]
このジレンマに対する一般的な解決策は、Contextual Banditフレームワークである。
その利点にもかかわらず、Contextual Banditアルゴリズムは測定バイアスや「次元の曲線」といった課題に直面している。
論文 参考訳(メタデータ) (2025-01-07T18:55:02Z) - Neural Dueling Bandits [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
次に、理論結果を二項フィードバックによる文脈的帯域幅問題に拡張し、それはそれ自体は自明な寄与ではない。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Understanding the performance gap between online and offline alignment algorithms [63.137832242488926]
オフラインのアルゴリズムは、ペアの分類が得意になるようにポリシーを訓練し、オンラインのアルゴリズムは世代ごとに良いことを示しています。
このことは、識別能力と生成能力の間のユニークな相互作用を示唆しており、これはサンプリングプロセスに大きく影響している。
我々の研究は、AIアライメントにおけるオンラインサンプリングの重要な役割に光を当て、オフラインアライメントアルゴリズムのある種の根本的な課題を示唆している。
論文 参考訳(メタデータ) (2024-05-14T09:12:30Z) - Privacy-preserving Federated Primal-dual Learning for Non-convex and Non-smooth Problems with Model Sparsification [51.04894019092156]
FL(Federated Learning)は,FLオーケストレーション(PS)の下でクライアント上でモデルをトレーニングする,急速に成長する領域として認識されている。
本稿では,非滑らかなFL問題に対して,新しい一次分離アルゴリズムを提案し,保証する。
その独特な洞察力のある性質とその分析も提示される。
論文 参考訳(メタデータ) (2023-10-30T14:15:47Z) - Transfer Learning with Partially Observable Offline Data via Causal Bounds [8.981637739384674]
本稿では,部分的に観測可能なコンテキスト帯の移動学習について検討する。
エージェントは不完全な情報と隠れた共同設立者への限られたアクセスで操作する。
本稿では,未知分布の関数的制約を線形制約に識別する効率的な手法を提案する。
この手法は推定誤差を考慮し、強い収束特性を示し、堅牢で信頼性の高い因果境界を保証する。
論文 参考訳(メタデータ) (2023-08-07T13:24:50Z) - Stochastic Rising Bandits [40.32303434592863]
本研究は、腕が単調に非減少している、安静時および安静時バンディットの特定の症例について検討する。
この特性により、ペイオフの規則性を利用して、厳密な後悔の限界を提供する、特別に構築されたアルゴリズムを設計することができる。
我々は,本アルゴリズムを実世界のデータセットに対するオンラインモデル選択問題や,複数の合成されたタスクに対する非定常MABの最先端手法と経験的に比較した。
論文 参考訳(メタデータ) (2022-12-07T17:30:45Z) - Markov Decision Process modeled with Bandits for Sequential Decision
Making in Linear-flow [73.1896399783641]
会員/加入者の獲得と保持では、複数のページを連続してマーケティングコンテンツを推奨する必要がある。
遷移確率行列をモデル化するためにBandits を用いた MDP としてこの問題を定式化することを提案する。
提案したMDPのBanditsアルゴリズムは,$epsilon$-greedyと$epsilon$-greedy,$epsilon$,IndependentBandits,InteractionBanditsでQ-learningを上回っている。
論文 参考訳(メタデータ) (2021-07-01T03:54:36Z) - Bandits with Partially Observable Confounded Data [74.04376842070624]
この問題は,サイド情報を用いたバンドイット問題の変種と密接に関連していることを示す。
本稿では,予測情報を活用する線形帯域幅アルゴリズムを構築し,残差を証明した。
この結果から,オンライン学習アルゴリズムにおいて,オフラインデータの集約が著しく向上することが示唆された。
論文 参考訳(メタデータ) (2020-06-11T18:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。