Fugu-MT 論文翻訳(概要): Towards Robust Offline Evaluation: A Causal and Information Theoretic Framework for Debiasing Ranking Systems

論文の概要: Towards Robust Offline Evaluation: A Causal and Information Theoretic Framework for Debiasing Ranking Systems

arxiv url: http://arxiv.org/abs/2504.03997v1
Date: Fri, 04 Apr 2025 23:52:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-16 06:52:51.521441
Title: Towards Robust Offline Evaluation: A Causal and Information Theoretic Framework for Debiasing Ranking Systems
Title（参考訳）: ロバストオフライン評価に向けて:ランク付けシステムの悪用に関する因果理論と情報理論の枠組み
Authors: Seyedeh Baharan Khatami, Sayan Chakraborty, Ruomeng Xu, Babak Salimi,
Abstract要約: 検索レベルシステムのオフライン評価は、高性能なモデルの開発に不可欠である。本稿では,検索グレードシステムのオフライン評価を行うための新しいフレームワークを提案する。本研究は,(1)オフライン評価バイアスに対処するための因果関係の定式化,(2)システムに依存しない脱バイアスフレームワーク,(3)有効性の実証的検証を含む。
参考スコア（独自算出の注目度）: 6.540293515339111
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating retrieval-ranking systems is crucial for developing high-performing models. While online A/B testing is the gold standard, its high cost and risks to user experience require effective offline methods. However, relying on historical interaction data introduces biases-such as selection, exposure, conformity, and position biases-that distort evaluation metrics, driven by the Missing-Not-At-Random (MNAR) nature of user interactions and favoring popular or frequently exposed items over true user preferences. We propose a novel framework for robust offline evaluation of retrieval-ranking systems, transforming MNAR data into Missing-At-Random (MAR) through reweighting combined with black-box optimization, guided by neural estimation of information-theoretic metrics. Our contributions include (1) a causal formulation for addressing offline evaluation biases, (2) a system-agnostic debiasing framework, and (3) empirical validation of its effectiveness. This framework enables more accurate, fair, and generalizable evaluations, enhancing model assessment before deployment.
Abstract（参考訳）: 検索レベルのシステム評価は,高性能なモデルの開発に不可欠である。オンラインA/Bテストは金の標準であるが、ユーザエクスペリエンスに対する高いコストとリスクは効果的なオフラインメソッドを必要とする。しかし、過去のインタラクションデータに依存すると、選択、露出、整合性、位置バイアスといったバイアスが発生し、それはユーザインタラクションのミス・ノー・アット・ランサム(MNAR)の性質によって引き起こされ、真のユーザの好みよりも人気のある、あるいは頻繁に露出するアイテムが好まれる。我々は,MNARデータをミス・アット・ランサム(MAR)に変換し,ブラックボックス最適化と組み合わせて,情報理論メトリクスのニューラル推定によって導かれる,検索グレードシステムのロバストなオフライン評価のための新しいフレームワークを提案する。本研究は,(1)オフライン評価バイアスに対処するための因果関係の定式化,(2)システムに依存しない脱バイアスフレームワーク,(3)有効性の実証的検証を含む。このフレームワークは、より正確で公平で一般化可能な評価を可能にし、デプロイ前のモデルアセスメントを強化する。

関連論文リスト

On the Reliability of Sampling Strategies in Offline Recommender Evaluation [3.4956406636452626]
オフライン評価は、オンラインテストが非現実的または危険である場合、推奨システムのベンチマークにおいて中心的な役割を果たす。露出バイアスは、ユーザが表示されているアイテムのみと対話する、露出バイアスと、全カタログではなくログされたアイテムのサブセットで評価を行う際に導入されるサンプリングバイアスである。
論文参考訳（メタデータ） (2025-08-07T13:50:05Z)
Rethinking Relation Extraction: Beyond Shortcuts to Generalization with a Debiased Benchmark [53.876493664396506]
ベンチマークは、機械学習アルゴリズムのパフォーマンスの評価、比較の促進、優れたソリューションの特定に不可欠である。本稿では,関係抽出タスクにおけるエンティティバイアスの問題に対処する。本稿では,エンティティの代替によって,エンティティ参照と関係型との擬似相関を破る不偏関係抽出ベンチマークDREBを提案する。 DREBの新たなベースラインを確立するために,データレベルとモデルトレーニングレベルを組み合わせたデバイアス手法であるMixDebiasを導入する。
論文参考訳（メタデータ） (2025-01-02T17:01:06Z)
Pessimistic Evaluation [58.736490198613154]
情報アクセスシステムの評価は,情報アクセスの伝統に沿わない実用的価値を前提としている。我々は,最悪のケースユーティリティに着目した情報アクセスシステムの悲観的評価を提唱する。
論文参考訳（メタデータ） (2024-10-17T15:40:09Z)
Revisiting Reciprocal Recommender Systems: Metrics, Formulation, and Method [60.364834418531366]
RRSの性能を包括的かつ正確に評価する5つの新しい評価指標を提案する。因果的観点からRSを定式化し、二元的介入として勧告を定式化する。提案手法では,結果の一致を最大化する手法を提案する。
論文参考訳（メタデータ） (2024-08-19T07:21:02Z)
Debiased Recommendation with Noisy Feedback [41.38490962524047]
収集データ中のMNARとOMEから予測モデルの非バイアス学習に対する交差点脅威について検討する。まず, OME-EIB, OME-IPS, OME-DR推定器を設計する。
論文参考訳（メタデータ） (2024-06-24T23:42:18Z)
Unbiased Learning to Rank with Biased Continuous Feedback [5.561943356123711]
雑音フィードバックに基づいて相対関係を正確にモデル化するために,非バイアス学習 to ランク(LTR)アルゴリズムを検証した。パーソナライズされた高品質なレコメンデーション結果を提供するために、レコメンダシステムはカテゴリと継続的なバイアスフィードバックの両方をモデルにする必要があります。位置バイアス、信頼バイアス、ユーザ関係を明確に区別するために、ペアワイズ信頼バイアスを導入します。 Tencent Newsの公開ベンチマークデータセットと大規模レコメンデータシステムの内部ライブトラフィックの実験結果は、連続ラベルに対して優れた結果を示している。
論文参考訳（メタデータ） (2023-03-08T02:14:08Z)
Exploring validation metrics for offline model-based optimisation with diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文参考訳（メタデータ） (2022-11-19T16:57:37Z)
Off-policy evaluation for learning-to-rank via interpolating the item-position model and the position-based model [83.83064559894989]
産業レコメンデーションシステムにとって重要なニーズは、製品にデプロイする前に、レコメンデーションポリシーをオフラインで評価する機能である。我々は、最も人気のある2つの非政治推定器の問題を緩和する新しい推定器を開発する。特に、InterPOLと呼ばれる新しい推定器は、潜在的に不特定位置ベースモデルのバイアスに対処する。
論文参考訳（メタデータ） (2022-10-15T17:22:30Z)
Unbiased Pairwise Learning to Rank in Recommender Systems [4.058828240864671]
アルゴリズムをランク付けする偏見のない学習は、候補をアピールし、既に単一の分類ラベルを持つ多くのアプリケーションに適用されている。本稿では,この課題に対処するための新しい非バイアス付きLTRアルゴリズムを提案する。パブリックベンチマークデータセットと内部ライブトラフィックを用いた実験結果から,分類ラベルと連続ラベルのいずれにおいても提案手法の優れた結果が得られた。
論文参考訳（メタデータ） (2021-11-25T06:04:59Z)
Correcting the User Feedback-Loop Bias for Recommendation Systems [34.44834423714441]
本稿では,レコメンデーションシステムにおいて,ユーザのフィードバックループバイアスを修正するための系統的かつ動的手法を提案する。本手法は,各ユーザの動的評価履歴の埋め込みを学習するためのディープラーニングコンポーネントを含む。実世界のレコメンデーションシステムにおけるユーザフィードバックループバイアスの存在を実証的に検証した。
論文参考訳（メタデータ） (2021-09-13T15:02:55Z)
Modeling Online Behavior in Recommender Systems: The Importance of Temporal Context [30.894950420437926]
推薦システムの性能を評価するときの時間的文脈の省略が、いかに誤った自信をもたらすかを示す。既存のモデルに時間的文脈をさらに埋め込むためのトレーニング手順を提案する。その結果、時間的目標を含めれば、リコール@20を最大20%改善できることがわかった。
論文参考訳（メタデータ） (2020-09-19T19:36:43Z)
Providing reliability in Recommender Systems through Bernoulli Matrix Factorization [63.732639864601914]
本稿では,予測値と信頼性値の両方を提供するためにBernoulli Matrix Factorization (BeMF)を提案する。 BeMFはメモリベースのフィルタリングではなく、モデルベースの協調フィルタリングに作用する。予測の信頼性が高ければ高いほど、それが間違っているという責任は少なくなる。
論文参考訳（メタデータ） (2020-06-05T14:24:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。