論文の概要: On the Reliability of Sampling Strategies in Offline Recommender Evaluation
- arxiv url: http://arxiv.org/abs/2508.05398v2
- Date: Mon, 11 Aug 2025 13:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 13:12:52.294012
- Title: On the Reliability of Sampling Strategies in Offline Recommender Evaluation
- Title(参考訳): オフラインレコメンダ評価におけるサンプリング戦略の信頼性について
- Authors: Bruno L. Pereira, Alan Said, Rodrygo L. T. Santos,
- Abstract要約: オフライン評価は、オンラインテストが非現実的または危険である場合、推奨システムのベンチマークにおいて中心的な役割を果たす。
露出バイアスは、ユーザが表示されているアイテムのみと対話する、露出バイアスと、全カタログではなくログされたアイテムのサブセットで評価を行う際に導入されるサンプリングバイアスである。
- 参考スコア(独自算出の注目度): 3.4956406636452626
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Offline evaluation plays a central role in benchmarking recommender systems when online testing is impractical or risky. However, it is susceptible to two key sources of bias: exposure bias, where users only interact with items they are shown, and sampling bias, introduced when evaluation is performed on a subset of logged items rather than the full catalog. While prior work has proposed methods to mitigate sampling bias, these are typically assessed on fixed logged datasets rather than for their ability to support reliable model comparisons under varying exposure conditions or relative to true user preferences. In this paper, we investigate how different combinations of logging and sampling choices affect the reliability of offline evaluation. Using a fully observed dataset as ground truth, we systematically simulate diverse exposure biases and assess the reliability of common sampling strategies along four dimensions: sampling resolution (recommender model separability), fidelity (agreement with full evaluation), robustness (stability under exposure bias), and predictive power (alignment with ground truth). Our findings highlight when and how sampling distorts evaluation outcomes and offer practical guidance for selecting strategies that yield faithful and robust offline comparisons.
- Abstract(参考訳): オンラインテストが実用的でない場合、オフライン評価は推奨システムのベンチマークにおいて中心的な役割を果たす。
しかし,2つの重要なバイアス源として,ユーザが表示されている項目のみを操作できる露光バイアスと,全カタログではなくログ項目のサブセットで評価を行う場合のサンプリングバイアスがある。
以前の研究ではサンプリングバイアスを緩和する手法が提案されていたが、それらは一般的に、様々な露出条件下での信頼性のあるモデル比較や、真のユーザの嗜好に対してサポートできることよりも、固定ログデータセットで評価される。
本稿では,ログとサンプリングの選択の組み合わせがオフライン評価の信頼性に与える影響について検討する。
完全観測されたデータセットを基底事実として,多彩な露光バイアスを体系的にシミュレートし,サンプリング解像度(参照モデル分離性),忠実度(完全評価),頑健さ(露出バイアス下での安定性),予測力(接地真実との整合性)の4次元に沿った共通サンプリング戦略の信頼性を評価する。
本研究は, サンプリングが評価結果を歪曲し, 忠実かつ堅牢なオフライン比較を導出する戦略を選択するための実践的指導をいつ, どのように行うかを明らかにする。
関連論文リスト
- Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。
特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文 参考訳(メタデータ) (2025-04-20T19:05:59Z) - Towards Robust Offline Evaluation: A Causal and Information Theoretic Framework for Debiasing Ranking Systems [6.540293515339111]
検索レベルシステムのオフライン評価は、高性能なモデルの開発に不可欠である。
本稿では,検索グレードシステムのオフライン評価を行うための新しいフレームワークを提案する。
本研究は,(1)オフライン評価バイアスに対処するための因果関係の定式化,(2)システムに依存しない脱バイアスフレームワーク,(3)有効性の実証的検証を含む。
論文 参考訳(メタデータ) (2025-04-04T23:52:57Z) - Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Debias Can be Unreliable: Mitigating Bias Issue in Evaluating Debiasing Recommendation [34.19561411584444]
従来の評価手法は、ランダムに出力されたデータセットには適さない。
本稿では、ランダムに出力されたデータセットの利用を調整し、真のリコール性能を不偏に推定するUnbiased Recall Evaluationスキームを提案する。
論文 参考訳(メタデータ) (2024-09-07T12:42:58Z) - Balancing Unobserved Confounding with a Few Unbiased Ratings in Debiased
Recommendations [4.960902915238239]
本稿では,既存のデバイアス法に適用可能な理論的に保証されたモデル非依存バランス手法を提案する。
提案手法では, バイアスデータを用いて学習したモデルパラメータを補正し, バイアスデータのバランス係数を適応的に学習することで, バイアスデータを完全に活用する。
論文 参考訳(メタデータ) (2023-04-17T08:56:55Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。
また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。
様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文 参考訳(メタデータ) (2023-02-22T14:50:24Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Holistic Approach to Measure Sample-level Adversarial Vulnerability and
its Utility in Building Trustworthy Systems [17.707594255626216]
敵対的攻撃は、知覚不能な雑音を伴うイメージを摂動させ、誤ったモデル予測をもたらす。
本稿では,異なる視点を組み合わせることで,サンプルの敵対的脆弱性を定量化するための総合的アプローチを提案する。
サンプルレベルで確実に敵の脆弱性を推定することにより、信頼できるシステムを開発できることを実証する。
論文 参考訳(メタデータ) (2022-05-05T12:36:17Z) - On robust risk-based active-learning algorithms for enhanced decision
support [0.0]
分類モデルは、構造的健康モニタリング(SHM)システムやデジタルツインなどの物理資産管理技術の基本的な構成要素である。
本稿では,サンプリングバイアスの効果に対処する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2022-01-07T17:25:41Z) - On conditional versus marginal bias in multi-armed bandits [105.07190334523304]
多腕バンディットにおける腕のサンプル平均のバイアスは、適応データ解析において重要な問題である。
サンプル平均を含む報酬の単調関数の条件バイアスの兆候を特徴付ける。
我々の結果は任意の条件付けイベントを保ち、データ収集ポリシーの自然な単調性特性を活用する。
論文 参考訳(メタデータ) (2020-02-19T20:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。