論文の概要: Multi-User Contextual Cascading Bandits for Personalized Recommendation
- arxiv url: http://arxiv.org/abs/2508.13981v1
- Date: Tue, 19 Aug 2025 16:14:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:32.011737
- Title: Multi-User Contextual Cascading Bandits for Personalized Recommendation
- Title(参考訳): パーソナライズされたレコメンデーションのためのマルチユーザコンテキストカスケードバンド
- Authors: Jiho Park, Huiwen Jia,
- Abstract要約: Multi-User Contextual Cascading Banditモデルは、複数のユーザがシーケンシャルに表示されたアイテムと同時に対話するリアルなオンライン広告シナリオをキャプチャする。
我々はまず,UCBBP(Upper Confidence Bound with Backward Planning)を提案する。この設定に適したUCBスタイルのアルゴリズムで,$widetildeO(sqrtTHN)$が$T$以上,セッションステップが$H$,コンテキストが$N$以上となることを証明している。
多くのユーザが同時にシステムと対話するという事実に感銘を受けて、我々はActive Up Confidence Bound withという第2のアルゴリズムを導入しました。
- 参考スコア(独自算出の注目度): 3.1000291317724997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a Multi-User Contextual Cascading Bandit model, a new combinatorial bandit framework that captures realistic online advertising scenarios where multiple users interact with sequentially displayed items simultaneously. Unlike classical contextual bandits, MCCB integrates three key structural elements: (i) cascading feedback based on sequential arm exposure, (ii) parallel context sessions enabling selective exploration, and (iii) heterogeneous arm-level rewards. We first propose Upper Confidence Bound with Backward Planning (UCBBP), a UCB-style algorithm tailored to this setting, and prove that it achieves a regret bound of $\widetilde{O}(\sqrt{THN})$ over $T$ episodes, $H$ session steps, and $N$ contexts per episode. Motivated by the fact that many users interact with the system simultaneously, we introduce a second algorithm, termed Active Upper Confidence Bound with Backward Planning (AUCBBP), which shows a strict efficiency improvement in context scaling, i.e., user scaling, with a regret bound of $\widetilde{O}(\sqrt{T+HN})$. We validate our theoretical findings via numerical experiments, demonstrating the empirical effectiveness of both algorithms under various settings.
- Abstract(参考訳): マルチユーザコンテキストカスケーディング・バンディット(Multi-User Contextual Cascading Bandit)モデルを導入する。
古典的な文脈的包帯とは異なり、MCCBは3つの重要な構造要素を統合する。
一 連続した腕の露出に基づくカスケードフィードバック
(二)選択探索が可能な並列コンテキストセッション、及び
(三)ヘテロジニアスアームレベルの報酬。
まず、この設定に合わせたUPBスタイルのアルゴリズムであるUpper Confidence Bound with Backward Planning (UCBBP)を提案し、$\widetilde{O}(\sqrt{THN})$ over $T$ episodes, $H$ session steps, and $N$ contexts of episodes。
多くのユーザが同時にシステムと対話するという事実に触発され、第2のアルゴリズムであるActive Upper Confidence Bound with Backward Planning (AUCBBP)を導入し、コンテキストスケーリングにおける厳密な効率改善、すなわちユーザスケーリングを再現し、残差は$\widetilde{O}(\sqrt{T+HN})$であることを示す。
数値実験により理論的知見を検証し,様々な条件下での両アルゴリズムの実証的有効性を実証した。
関連論文リスト
- Multi Activity Sequence Alignment via Implicit Clustering [50.3168866743067]
暗黙のクラスタリングによるシーケンスアライメントによる制約を克服する新しいフレームワークを提案する。
具体的には、列内のフレームをアライメントしながら、暗黙的なクリップレベルのクラスタリングを行うという考え方です。
実験の結果,提案手法は最先端の結果よりも優れていた。
論文 参考訳(メタデータ) (2025-03-16T14:28:46Z) - Optimal Best Arm Identification with Post-Action Context [15.613350380708798]
動作後コンテキストを用いたベストアーム識別の問題を紹介する。
動作後コンテキストの2つの異なるタイプを解析する。
非セパレータ設定では、トラック・アンド・ストップのアルゴリズムをこの設定に拡張できることを実証する。
セパレータ設定では,コンテキスト空間の幾何学を用いてアクションではなくコンテキストを直接追跡する「textitG-tracking$」という新しいサンプリングルールを提案する。
論文 参考訳(メタデータ) (2025-02-05T10:47:05Z) - Online Clustering of Dueling Bandits [59.09590979404303]
本稿では、優先フィードバックに基づく協調的な意思決定を可能にするために、最初の「デュエルバンディットアルゴリズムのクラスタリング」を導入する。
本稿では,(1)ユーザ報酬関数をコンテキストベクトルの線形関数としてモデル化する線形デューリング帯域のクラスタリング(COLDB)と,(2)ニューラルネットワークを用いて複雑な非線形ユーザ報酬関数をモデル化するニューラルデューリング帯域のクラスタリング(CONDB)の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-04T07:55:41Z) - Combinatorial Stochastic-Greedy Bandit [79.1700188160944]
我々は,選択した$n$のアームセットのジョイント報酬以外の余分な情報が観測されない場合に,マルチアームのバンディット問題に対する新規グリーディ・バンディット(SGB)アルゴリズムを提案する。
SGBは最適化された拡張型コミットアプローチを採用しており、ベースアームの大きなセットを持つシナリオ用に特別に設計されている。
論文 参考訳(メタデータ) (2023-12-13T11:08:25Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Efficient Explorative Key-term Selection Strategies for Conversational
Contextual Bandits [46.49854998602084]
ConLinUCBは,より優れた情報を組み込んだ対話型盗賊のための一般的なフレームワークである。
また、爆発的キー終末選択戦略であるConLinUCB-BSとConLinUCB-MCRの2つのバンディットアルゴリズムを設計する。
合成および実世界のデータに対する実験は、学習精度(最大54%改善)と計算効率(最大72%改善)において、我々のアルゴリズムの顕著な利点を示している。
論文 参考訳(メタデータ) (2023-03-01T08:24:54Z) - Batch-Size Independent Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms or Independent Arms [59.8188496313214]
半帯域 (CMAB) について検討し, 半帯域 (CMAB) におけるバッチサイズ (K$) の依存性の低減に着目した。
まず,確率的に引き起こされるアーム(CMAB-T)を用いたCMABの設定に対して,分散を考慮した信頼区間を持つBCUCB-Tアルゴリズムを提案する。
次に,独立アームを用いた非トリガ型CMABの設定に対して,TPVM条件の非トリガ型を利用したSESCBアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-08-31T13:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。