論文の概要: Towards Robust Offline Evaluation: A Causal and Information Theoretic Framework for Debiasing Ranking Systems
- arxiv url: http://arxiv.org/abs/2504.03997v1
- Date: Fri, 04 Apr 2025 23:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:08:43.084817
- Title: Towards Robust Offline Evaluation: A Causal and Information Theoretic Framework for Debiasing Ranking Systems
- Title(参考訳): ロバストオフライン評価に向けて:ランク付けシステムの悪用に関する因果理論と情報理論の枠組み
- Authors: Seyedeh Baharan Khatami, Sayan Chakraborty, Ruomeng Xu, Babak Salimi,
- Abstract要約: 検索レベルシステムのオフライン評価は、高性能なモデルの開発に不可欠である。
本稿では,検索グレードシステムのオフライン評価を行うための新しいフレームワークを提案する。
本研究は,(1)オフライン評価バイアスに対処するための因果関係の定式化,(2)システムに依存しない脱バイアスフレームワーク,(3)有効性の実証的検証を含む。
- 参考スコア(独自算出の注目度): 6.540293515339111
- License:
- Abstract: Evaluating retrieval-ranking systems is crucial for developing high-performing models. While online A/B testing is the gold standard, its high cost and risks to user experience require effective offline methods. However, relying on historical interaction data introduces biases-such as selection, exposure, conformity, and position biases-that distort evaluation metrics, driven by the Missing-Not-At-Random (MNAR) nature of user interactions and favoring popular or frequently exposed items over true user preferences. We propose a novel framework for robust offline evaluation of retrieval-ranking systems, transforming MNAR data into Missing-At-Random (MAR) through reweighting combined with black-box optimization, guided by neural estimation of information-theoretic metrics. Our contributions include (1) a causal formulation for addressing offline evaluation biases, (2) a system-agnostic debiasing framework, and (3) empirical validation of its effectiveness. This framework enables more accurate, fair, and generalizable evaluations, enhancing model assessment before deployment.
- Abstract(参考訳): 検索レベルのシステム評価は,高性能なモデルの開発に不可欠である。
オンラインA/Bテストは金の標準であるが、ユーザエクスペリエンスに対する高いコストとリスクは効果的なオフラインメソッドを必要とする。
しかし、過去のインタラクションデータに依存すると、選択、露出、整合性、位置バイアスといったバイアスが発生し、それはユーザインタラクションのミス・ノー・アット・ランサム(MNAR)の性質によって引き起こされ、真のユーザの好みよりも人気のある、あるいは頻繁に露出するアイテムが好まれる。
我々は,MNARデータをミス・アット・ランサム(MAR)に変換し,ブラックボックス最適化と組み合わせて,情報理論メトリクスのニューラル推定によって導かれる,検索グレードシステムのロバストなオフライン評価のための新しいフレームワークを提案する。
本研究は,(1)オフライン評価バイアスに対処するための因果関係の定式化,(2)システムに依存しない脱バイアスフレームワーク,(3)有効性の実証的検証を含む。
このフレームワークは、より正確で公平で一般化可能な評価を可能にし、デプロイ前のモデルアセスメントを強化する。
関連論文リスト
- Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。
本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。
本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。
DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文 参考訳(メタデータ) (2025-01-02T17:01:06Z) - Pessimistic Evaluation [58.736490198613154]
情報アクセスシステムの評価は,情報アクセスの伝統に沿わない実用的価値を前提としている。
我々は,最悪のケースユーティリティに着目した情報アクセスシステムの悲観的評価を提唱する。
論文 参考訳(メタデータ) (2024-10-17T15:40:09Z) - Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method [60.364834418531366]
RRSの性能を包括的かつ正確に評価する5つの新しい評価指標を提案する。
因果的観点からRSを定式化し、二元的介入として勧告を定式化する。
提案手法では,結果の一致を最大化する手法を提案する。
論文 参考訳(メタデータ) (2024-08-19T07:21:02Z) - Debiased Recommendation with Noisy Feedback [41.38490962524047]
収集データ中のMNARとOMEから予測モデルの非バイアス学習に対する交差点脅威について検討する。
まず, OME-EIB, OME-IPS, OME-DR推定器を設計する。
論文 参考訳(メタデータ) (2024-06-24T23:42:18Z) - Unbiased Learning to Rank with Biased Continuous Feedback [5.561943356123711]
雑音フィードバックに基づいて相対関係を正確にモデル化するために,非バイアス学習 to ランク(LTR)アルゴリズムを検証した。
パーソナライズされた高品質なレコメンデーション結果を提供するために、レコメンダシステムはカテゴリと継続的なバイアスフィードバックの両方をモデルにする必要があります。
位置バイアス、信頼バイアス、ユーザ関係を明確に区別するために、ペアワイズ信頼バイアスを導入します。
Tencent Newsの公開ベンチマークデータセットと大規模レコメンデータシステムの内部ライブトラフィックの実験結果は、連続ラベルに対して優れた結果を示している。
論文 参考訳(メタデータ) (2023-03-08T02:14:08Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Off-policy evaluation for learning-to-rank via interpolating the
item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。
我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。
特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文 参考訳(メタデータ) (2022-10-15T17:22:30Z) - Unbiased Pairwise Learning to Rank in Recommender Systems [4.058828240864671]
アルゴリズムをランク付けする偏見のない学習は、候補をアピールし、既に単一の分類ラベルを持つ多くのアプリケーションに適用されている。
本稿では,この課題に対処するための新しい非バイアス付きLTRアルゴリズムを提案する。
パブリックベンチマークデータセットと内部ライブトラフィックを用いた実験結果から,分類ラベルと連続ラベルのいずれにおいても提案手法の優れた結果が得られた。
論文 参考訳(メタデータ) (2021-11-25T06:04:59Z) - Correcting the User Feedback-Loop Bias for Recommendation Systems [34.44834423714441]
本稿では,レコメンデーションシステムにおいて,ユーザのフィードバックループバイアスを修正するための系統的かつ動的手法を提案する。
本手法は,各ユーザの動的評価履歴の埋め込みを学習するためのディープラーニングコンポーネントを含む。
実世界のレコメンデーションシステムにおけるユーザフィードバックループバイアスの存在を実証的に検証した。
論文 参考訳(メタデータ) (2021-09-13T15:02:55Z) - Modeling Online Behavior in Recommender Systems: The Importance of
Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。
既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。
その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文 参考訳(メタデータ) (2020-09-19T19:36:43Z) - Providing reliability in Recommender Systems through Bernoulli Matrix
Factorization [63.732639864601914]
本稿では,予測値と信頼性値の両方を提供するためにBernoulli Matrix Factorization (BeMF)を提案する。
BeMFはメモリベースのフィルタリングではなく、モデルベースの協調フィルタリングに作用する。
予測の信頼性が高ければ高いほど、それが間違っているという責任は少なくなる。
論文 参考訳(メタデータ) (2020-06-05T14:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。