論文の概要: Exploitation Over Exploration: Unmasking the Bias in Linear Bandit Recommender Offline Evaluation
- arxiv url: http://arxiv.org/abs/2507.18756v1
- Date: Thu, 24 Jul 2025 19:14:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.731
- Title: Exploitation Over Exploration: Unmasking the Bias in Linear Bandit Recommender Offline Evaluation
- Title(参考訳): 探査に関する爆発:リニアバンドリコメンダのオフライン評価でバイアスを解き放つ
- Authors: Pedro R. Pires, Gregorio F. Azevedo, Pietro L. Campos, Rafael T. Sereicikas, Tiago A. Almeida,
- Abstract要約: Multi-Armed Bandit (MAB)アルゴリズムは、継続的な漸進的な学習を必要とするレコメンデーションシステムで広く使われている。
本研究は、複数の線形MABの大規模なオフライン実験比較を行う。
興味深いことに、さまざまなデータセットの90%以上にわたって、厳密な線形モデルであり、探索のタイプがないため、一貫してトップレベルのパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 0.8213829427624406
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multi-Armed Bandit (MAB) algorithms are widely used in recommender systems that require continuous, incremental learning. A core aspect of MABs is the exploration-exploitation trade-off: choosing between exploiting items likely to be enjoyed and exploring new ones to gather information. In contextual linear bandits, this trade-off is particularly central, as many variants share the same linear regression backbone and differ primarily in their exploration strategies. Despite its prevalent use, offline evaluation of MABs is increasingly recognized for its limitations in reliably assessing exploration behavior. This study conducts an extensive offline empirical comparison of several linear MABs. Strikingly, across over 90% of various datasets, a greedy linear model, with no type of exploration, consistently achieves top-tier performance, often outperforming or matching its exploratory counterparts. This observation is further corroborated by hyperparameter optimization, which consistently favors configurations that minimize exploration, suggesting that pure exploitation is the dominant strategy within these evaluation settings. Our results expose significant inadequacies in offline evaluation protocols for bandits, particularly concerning their capacity to reflect true exploratory efficacy. Consequently, this research underscores the urgent necessity for developing more robust assessment methodologies, guiding future investigations into alternative evaluation frameworks for interactive learning in recommender systems.
- Abstract(参考訳): Multi-Armed Bandit (MAB)アルゴリズムは、継続的な漸進的な学習を必要とするレコメンデーションシステムで広く使われている。
MABの中核的な側面は、探索と探索のトレードオフであり、楽しむ可能性のあるアイテムを搾取することと、情報を集めるために新しいものを探索することから選択することである。
多くの変種が同じ線形回帰バックボーンを共有しており、主に探索戦略において異なるため、文脈線形帯域では、このトレードオフは特に中心的である。
広く使われているにもかかわらず、MABのオフライン評価は、探査行動の信頼性を評価するための限界として、ますます認識されている。
本研究は、複数の線形MABの大規模なオフライン実験比較を行う。
興味深いことに、さまざまなデータセットの90%以上にわたって、厳密な線形モデルであり、探索のタイプがないため、常にトップレベルのパフォーマンスを達成し、しばしば探索的なモデルよりも優れているか、一致するかのどちらかである。
この観測はハイパーパラメータ最適化によってさらに裏付けられ、探索を最小化する構成を常に好んでおり、これらの評価設定の中で純粋に悪用することが支配的な戦略であることを示唆している。
以上の結果から,バンディットのオフライン評価プロトコルには,特に真の探索効果を反映する能力が欠如していることが判明した。
本研究は,より堅牢な評価手法を開発する上での緊急の必要性を浮き彫りにし,リコメンデータシステムにおける対話型学習のための代替評価フレームワークに関する今後の研究を導くものである。
関連論文リスト
- Revisiting BPR: A Replicability Study of a Common Recommender System Baseline [78.00363373925758]
我々は,BPRモデルの特徴を考察し,その性能への影響を示し,オープンソースのBPR実装について検討する。
分析の結果,これらの実装とオリジナルのBPR論文の矛盾が明らかとなり,特定の実装に対して最大50%の性能低下がみられた。
BPRモデルは、トップnのレコメンデーションタスクにおける最先端メソッドに近いパフォーマンスレベルを達成でき、特定のデータセット上でもパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-09-21T18:39:53Z) - Dissecting Out-of-Distribution Detection and Open-Set Recognition: A Critical Analysis of Methods and Benchmarks [17.520137576423593]
我々は,コミュニティ内の2つの大きなサブフィールドの総合的なビュー – アウト・オブ・ディストリビューション(OOD)検出とオープンセット認識(OSR) – を提供することを目指している。
我々は,OOD検出における最先端手法とOSR設定との厳密な相互評価を行い,それらの手法の性能の強い相関関係を同定する。
我々は,OOD検出とOSRによって取り組まれている問題を解消する,より大規模なベンチマーク設定を提案する。
論文 参考訳(メタデータ) (2024-08-29T17:55:07Z) - Behavior Pattern Mining-based Multi-Behavior Recommendation [22.514959709811446]
行動パターンマイニングに基づくマルチ行動レコメンデーション(BPMR)を紹介する。
BPMRは、ユーザとアイテム間の多様な相互作用パターンを広範囲に調査し、これらのパターンを推奨する機能として利用します。
実世界の3つのデータセットに対する実験的評価は、BPMRが既存の最先端アルゴリズムを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-08-22T06:41:59Z) - Preference-Guided Reinforcement Learning for Efficient Exploration [7.83845308102632]
LOPE: Learning Online with trajectory Preference guidancE, a end-to-end preference-guided RL framework。
我々の直感では、LOPEは人的フィードバックをガイダンスとして考慮し、オンライン探索の焦点を直接調整する。
LOPEは収束率と全体的な性能に関して、最先端のいくつかの手法より優れている。
論文 参考訳(メタデータ) (2024-07-09T02:11:12Z) - Unifying Unsupervised Graph-Level Anomaly Detection and Out-of-Distribution Detection: A Benchmark [73.58840254552656]
近年,非教師付きグラフレベルの異常検出(GLAD)と教師なしグラフレベルのアウト・オブ・ディストリビューション(OOD)検出が注目されている。
教師なしアンダーラインtextbfGraphレベルアンダーラインtextbfOOD と anomaunderlinetextbfLy underlinetextbfDetection (ourmethod) に対するアンダーラインtextbfUnifiedアンダーラインtextbffBenchmark を提案する。
私たちのベンチマークには35のデータセットが含まれています
論文 参考訳(メタデータ) (2024-06-21T04:07:43Z) - Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark [101.23684938489413]
異常検出(AD)は、しばしば産業品質検査や医学的病変検査のための異常の検出に焦点が当てられている。
この研究はまず、COCOをADフィールドに拡張することにより、大規模で汎用的なCOCO-ADデータセットを構築する。
セグメンテーション分野のメトリクスにインスパイアされた我々は、より実用的なしきい値に依存したAD固有のメトリクスをいくつか提案する。
論文 参考訳(メタデータ) (2024-04-16T17:38:26Z) - Diversified Outlier Exposure for Out-of-Distribution Detection via
Informative Extrapolation [110.34982764201689]
Out-of-Distribution(OOD)検出は、現実のアプリケーションに信頼性の高い機械学習モデルをデプロイするために重要である。
近年, 外部曝露によるOOD検出に有意な結果が得られた。
本稿では,補助外乱量に基づく情報外挿による効果的なOOD検出のための新しい枠組み,すなわちDivOE(Diversified Outlier Exposure)を提案する。
論文 参考訳(メタデータ) (2023-10-21T07:16:09Z) - Expecting The Unexpected: Towards Broad Out-Of-Distribution Detection [10.486158803578665]
5種類の分布変化について検討し,OOD検出手法の性能評価を行った。
その結果,これらの手法は未知のクラスの検出に優れるが,他のタイプの分散シフトに遭遇した場合,その性能は不整合であることがわかった。
我々は、より一貫性があり包括的なOOD検出ソリューションを提供するアンサンブルアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-22T14:52:44Z) - Dynamic Exploration-Exploitation Trade-Off in Active Learning Regression
with Bayesian Hierarchical Modeling [4.132882666134921]
探査・探査を同時に検討する方法は、最適でないかもしれないトレードオフを制御するために、固定的またはアドホックな手段を同時に採用する。
我々は,BHEEMと呼ばれるベイズ的階層的アプローチを開発し,探査・探査のトレードオフを動的にバランスさせる。
論文 参考訳(メタデータ) (2023-04-16T01:40:48Z) - OpenOOD: Benchmarking Generalized Out-of-Distribution Detection [60.13300701826931]
アウト・オブ・ディストリビューション(OOD)検出は、安全クリティカルな機械学習アプリケーションにとって不可欠である。
この分野では現在、統一的で厳格に定式化され、包括的なベンチマークが欠けている。
関連フィールドで開発された30以上のメソッドを実装したOpenOODという,統一的で構造化されたシステムを構築します。
論文 参考訳(メタデータ) (2022-10-13T17:59:57Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。