論文の概要: Recycling History: Efficient Recommendations from Contextual Dueling Bandits
- arxiv url: http://arxiv.org/abs/2508.18841v1
- Date: Tue, 26 Aug 2025 09:18:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.77919
- Title: Recycling History: Efficient Recommendations from Contextual Dueling Bandits
- Title(参考訳): リサイクルの歴史: コンテキストデュエルバンドからの効率的な勧告
- Authors: Suryanarayana Sankagiri, Jalal Etesami, Pouria Fatemi, Matthias Grossglauser,
- Abstract要約: ユーザがアイテムを消費した後、より信頼性の高いフィードバックを提供するという事実に感銘を受け、我々は新しいバンディットモデルを提案する。
私たちのモデルでは、この比較項目は追加の後悔を伴わずに選択できるため、パフォーマンスが向上する可能性がある。
このアルゴリズムは,履歴が豊富であれば,ある多様性条件を満たす情報クエリを構築可能であることを示す。
- 参考スコア(独自算出の注目度): 7.802377730449526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The contextual duelling bandit problem models adaptive recommender systems, where the algorithm presents a set of items to the user, and the user's choice reveals their preference. This setup is well suited for implicit choices users make when navigating a content platform, but does not capture other possible comparison queries. Motivated by the fact that users provide more reliable feedback after consuming items, we propose a new bandit model that can be described as follows. The algorithm recommends one item per time step; after consuming that item, the user is asked to compare it with another item chosen from the user's consumption history. Importantly, in our model, this comparison item can be chosen without incurring any additional regret, potentially leading to better performance. However, the regret analysis is challenging because of the temporal dependency in the user's history. To overcome this challenge, we first show that the algorithm can construct informative queries provided the history is rich, i.e., satisfies a certain diversity condition. We then show that a short initial random exploration phase is sufficient for the algorithm to accumulate a rich history with high probability. This result, proven via matrix concentration bounds, yields $O(\sqrt{T})$ regret guarantees. Additionally, our simulations show that reusing past items for comparisons can lead to significantly lower regret than only comparing between simultaneously recommended items.
- Abstract(参考訳): 適応型レコメンデーションシステムでは,アルゴリズムがユーザに対して項目のセットを提示し,ユーザの選択によって好みが明らかになる。
このセットアップは、ユーザーがコンテンツプラットフォームをナビゲートする際に行う暗黙の選択肢に適しているが、他の可能な比較クエリをキャプチャしない。
利用者がアイテムを消費した後、より信頼性の高いフィードバックを提供するという事実に触発され、我々は次のように説明できる新しいバンディットモデルを提案する。
アルゴリズムは、タイムステップ毎に1つのアイテムを推奨し、そのアイテムを消費した後、ユーザは、ユーザの消費履歴から選択した他のアイテムと比較するように要求される。
重要なことに、我々のモデルでは、この比較項目は追加の後悔を伴わずに選択でき、パフォーマンスが向上する可能性がある。
しかし、ユーザの履歴に時間的依存があるため、後悔の分析は困難である。
この課題を克服するために、まず、歴史が豊富であれば、ある多様性条件を満たす情報クエリを構築することができることを示す。
次に, 確率の高いリッチな履歴を蓄積するのには, 短い初期ランダム探索フェーズが十分であることを示す。
この結果は行列濃度境界によって証明され、$O(\sqrt{T})$後悔の保証が得られる。
さらに, 過去の項目を比較対象として再利用することで, 同時に推奨される項目を比較するだけで, 後悔度が大幅に低下する可能性が示唆された。
関連論文リスト
- Preference Trajectory Modeling via Flow Matching for Sequential Recommendation [50.077447974294586]
シーケンスレコメンデーションは、履歴的なインタラクションシーケンスに基づいて、各ユーザの次の項目を予測する。
FlowRecはシンプルだが効果的なシーケンシャルレコメンデーションフレームワークである。
我々は,ガウス雑音に代えてパーソナライズされた行動に基づく事前分布を構築し,ユーザの嗜好軌跡をモデル化するためのベクトル場を学習する。
論文 参考訳(メタデータ) (2025-08-25T02:55:42Z) - Churn-Aware Recommendation Planning under Aggregated Preference Feedback [6.261444979025644]
本稿では,近年の規制と技術の変化を動機とした逐次的意思決定問題について考察する。
我々はRec-APCモデルを導入し、匿名ユーザを既知の先行ユーザ型から抽出する。
最適ポリシが有限時間で純粋な利用に収束することを証明し、それらを効率的に計算するための分岐とバウンドのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-07-06T19:22:47Z) - ConsRec: Denoising Sequential Recommendation through User-Consistent Preference Modeling [33.281526528724335]
ユーザ一貫性を持つ参照型シーケンスレコメンデーションシステム(ConsRec)を提案する。
ConsRecは安定したユーザの好みをキャプチャし、インタラクション履歴からノイズの多いアイテムをフィルタリングする。
その結果、ConsRecはベースラインレコメンデーションモデルよりも13%改善されている。
論文 参考訳(メタデータ) (2025-05-28T08:55:13Z) - Neural Dueling Bandits: Preference-Based Optimization with Human Feedback [58.90189511247936]
ニューラルネットワークを用いて、予め選択した腕の好みフィードバックを用いて報酬関数を推定する。
また、理論的結果を文脈的包括的問題に拡張し、二元的フィードバックは、それ自体は非自明な貢献である。
論文 参考訳(メタデータ) (2024-07-24T09:23:22Z) - Misalignment, Learning, and Ranking: Harnessing Users Limited Attention [16.74322664734553]
本稿では,最適ベンチマークに対する後悔を解消するオンラインアルゴリズムの設計について検討する。
逆オンライン線形最適化の標準的なアルゴリズムは、$O(sqrtT)$ regretのペイオフ時間アルゴリズムを得るためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2024-02-21T18:52:20Z) - Online Recommendations for Agents with Discounted Adaptive Preferences [17.501559059079806]
エージェントの選好が過去の選択の関数として進化するバンディットレコメンデーション問題。
本稿では,$textitentire$ item simplexに対して,効率的なサブ線形後悔を求めるアルゴリズムを示す。
論文 参考訳(メタデータ) (2023-02-12T22:04:27Z) - Batch versus Sequential Active Learning for Recommender Systems [3.7796614675664397]
シーケンシャルモードは、高密度データセットに対して最も正確なレコメンデーションを生成する。
ほとんどのアクティブな学習者にとって、最良の予測器はシーケンシャルモードと組み合わせてFunkSVDであることが判明した。
論文 参考訳(メタデータ) (2022-01-19T12:50:36Z) - Sequential Recommendation via Stochastic Self-Attention [68.52192964559829]
Transformerベースのアプローチでは、アイテムをベクトルとして埋め込んで、ドット積の自己アテンションを使用してアイテム間の関係を測定する。
本稿では,これらの問題を克服するための新しいtextbfStochastic textbfSelf-textbfAttention (STOSA) を提案する。
我々は、アイテムと項目の位置関係を列で特徴づける新しいワッサースタイン自己保持モジュールを考案した。
論文 参考訳(メタデータ) (2022-01-16T12:38:45Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Regret in Online Recommendation Systems [73.58127515175127]
本稿では,オンライン環境におけるレコメンデーションシステムの理論的分析について提案する。
各ラウンドにおいて、ユーザがランダムに$m$ユーザから選択され、レコメンデーションが要求される。決定者は、ユーザを観察し、$n$アイテムのカタログからアイテムを選択する。
推奨アルゴリズムのパフォーマンスは、これらの可能性を認識したOracleアルゴリズムを参照して、その後悔を通じて取得される。
論文 参考訳(メタデータ) (2020-10-23T12:48:35Z) - Optimal Clustering from Noisy Binary Feedback [75.17453757892152]
本稿では,二元的ユーザフィードバックから一組のアイテムをクラスタリングする問題について検討する。
最小クラスタ回復誤差率のアルゴリズムを考案する。
適応選択のために,情報理論的誤差下界の導出にインスパイアされたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2019-10-14T09:18:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。