論文の概要: Harnessing the Power of Interleaving and Counterfactual Evaluation for Airbnb Search Ranking
- arxiv url: http://arxiv.org/abs/2508.00751v1
- Date: Fri, 01 Aug 2025 16:28:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.953437
- Title: Harnessing the Power of Interleaving and Counterfactual Evaluation for Airbnb Search Ranking
- Title(参考訳): Airbnb検索ランキングにおけるインターリービングの力と対効果評価のハーネス
- Authors: Qing Zhang, Alex Deng, Michelle Du, Huiji Gao, Liwei He, Sanjeev Katariya,
- Abstract要約: 評価は,検索・推薦システムにおけるランキングアルゴリズムの開発において重要な役割を担っている。
オンライン環境は因果推論技術の適用に寄与する。
効果的なA/Bテストでは、ビジネスはユニークな課題に直面します。
- 参考スコア(独自算出の注目度): 14.97060265751423
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation plays a crucial role in the development of ranking algorithms on search and recommender systems. It enables online platforms to create user-friendly features that drive commercial success in a steady and effective manner. The online environment is particularly conducive to applying causal inference techniques, such as randomized controlled experiments (known as A/B test), which are often more challenging to implement in fields like medicine and public policy. However, businesses face unique challenges when it comes to effective A/B test. Specifically, achieving sufficient statistical power for conversion-based metrics can be time-consuming, especially for significant purchases like booking accommodations. While offline evaluations are quicker and more cost-effective, they often lack accuracy and are inadequate for selecting candidates for A/B test. To address these challenges, we developed interleaving and counterfactual evaluation methods to facilitate rapid online assessments for identifying the most promising candidates for A/B tests. Our approach not only increased the sensitivity of experiments by a factor of up to 100 (depending on the approach and metrics) compared to traditional A/B testing but also streamlined the experimental process. The practical insights gained from usage in production can also benefit organizations with similar interests.
- Abstract(参考訳): 評価は,検索・推薦システムにおけるランキングアルゴリズムの開発において重要な役割を担っている。
オンラインプラットフォームは、安定的で効果的な方法で商業的成功を促進する、ユーザフレンドリーな機能を作成することができる。
オンライン環境は特に、ランダム化制御実験(A/Bテストとして知られる)のような因果推論技術を適用し、医療や公共政策などの分野で実施することが困難な場合が多い。
しかし企業は、効果的なA/Bテストに関して、ユニークな課題に直面している。
具体的には、コンバージョンベースのメトリクスに対して十分な統計的パワーを達成するのに、特に予約宿泊のような重要な購入に時間を要する可能性がある。
オフライン評価は高速で費用対効果が高いが、精度に欠けることが多く、A/Bテストの候補を選択するには不十分である。
これらの課題に対処するため、我々は、A/Bテストの最も有望な候補を特定するために、迅速なオンラインアセスメントを促進するためのインターリービングと対実評価手法を開発した。
従来のA/Bテストと比較して,実験の感度を最大100倍に向上させるだけでなく,実験プロセスの合理化も行った。
プロダクションでの使用から得られる実践的な洞察は、同様の関心を持つ組織にも役立つ。
関連論文リスト
- TestAgent: An Adaptive and Intelligent Expert for Human Assessment [62.060118490577366]
対話型エンゲージメントによる適応テストを強化するために,大規模言語モデル(LLM)を利用したエージェントであるTestAgentを提案する。
TestAgentは、パーソナライズされた質問の選択をサポートし、テストテイカーの応答と異常をキャプチャし、動的で対話的なインタラクションを通じて正確な結果を提供する。
論文 参考訳(メタデータ) (2025-06-03T16:07:54Z) - Take Care of Your Prompt Bias! Investigating and Mitigating Prompt Bias in Factual Knowledge Extraction [56.17020601803071]
近年の研究では、事前学習言語モデル(PLM)が、事実知識抽出において「急激なバイアス」に悩まされていることが示されている。
本稿では,突発バイアスを徹底的に調査し緩和することにより,既存のベンチマークの信頼性を向上させることを目的とする。
論文 参考訳(メタデータ) (2024-03-15T02:04:35Z) - Efficient Weighting Schemes for Auditing Instant-Runoff Voting Elections [57.67176250198289]
AWAIREは、適応的に重み付けされたテスト統計量であり、本質的には、テストに有効な仮説のセットを「学習」する。
我々は、より広範囲にスキームと設定を検討し、実践のための効率的な選択を特定し、推奨する。
現在のAWAIRE実装の制限は、少数の候補者に限られている。
論文 参考訳(メタデータ) (2024-02-18T10:13:01Z) - Variance Reduction in Ratio Metrics for Efficient Online Experiments [12.036747050794135]
大規模なショートビデオプラットフォーム上での比率測定に分散低減手法を適用した: ShareChat。
その結果,77%の症例でA/Bテストの信頼性を向上できるか,データポイントを30%減らして同一の信頼性を維持することができることがわかった。
論文 参考訳(メタデータ) (2024-01-08T18:01:09Z) - Better Practices for Domain Adaptation [62.70267990659201]
ドメイン適応(DA)は、ラベルを使わずに、モデルを配置データに適用するためのフレームワークを提供することを目的としている。
DAの明確な検証プロトコルは、文献の悪い実践につながっている。
ドメイン適応手法の3つの分野にまたがる課題を示す。
論文 参考訳(メタデータ) (2023-09-07T17:44:18Z) - A/B Testing: A Systematic Literature Review [10.222047656342493]
古典的なA/Bテストは、支配的なタイプのテストである。
テスト結果の圧倒的な利用は、機能選択、機能のロールアウト、継続的な機能開発である。
オープンな問題の主な報告は、提案されたアプローチの強化とそのユーザビリティである。
論文 参考訳(メタデータ) (2023-08-09T12:55:51Z) - Experimentation Platforms Meet Reinforcement Learning: Bayesian
Sequential Decision-Making for Continuous Monitoring [13.62951379287041]
本稿では、顧客体験を最大化し、機会コストを制御するためにAmazonで開発した新しいフレームワークを紹介する。
この問題を統一効用関数を持つベイズ最適逐次決定問題として定式化する。
本手法の有効性を,Amazon実験における大規模メタ分析による既存手法と比較した。
論文 参考訳(メタデータ) (2023-04-02T00:59:10Z) - Clustering-based Imputation for Dropout Buyers in Large-scale Online
Experimentation [4.753069295451989]
オンライン実験では、適切な指標(例えば購入)が仮説を支持し、意思決定プロセスを強化する強力な証拠を提供する。
本研究では,ドロップアウト購入者の概念を導入し,不完全なメトリック値を持つユーザを,訪問者とドロップアウト購入者という2つのグループに分類する。
不完全なメトリクスを分析するために、$k$-nearest 隣人を用いたクラスタリングベースの計算法を提案する。
論文 参考訳(メタデータ) (2022-09-09T01:05:53Z) - Confidence-Aware Active Feedback for Efficient Instance Search [21.8172170825049]
関連性フィードバックは、不完全なランキング結果をさらに洗練させるために、インスタンス検索(INS)タスクで広く使用されている。
本稿では,最も価値の高いフィードバック候補を効率的に選択できる信頼性対応アクティブフィードバック(CAAF)手法を提案する。
特にCAAFは、TRECVID 2021の大規模ビデオINS評価において、第1位を記録している。
論文 参考訳(メタデータ) (2021-10-23T16:14:03Z) - Benchmarks for Deep Off-Policy Evaluation [152.28569758144022]
我々は,政策外の評価のベンチマークに使用できるポリシーの集合を提案する。
私たちのベンチマークの目標は、一連の原則から動機付けられた進歩の標準化された尺度を提供することです。
この領域における今後の研究を促進するために、当社のデータとコードに対するオープンソースアクセスを提供しています。
論文 参考訳(メタデータ) (2021-03-30T18:09:33Z) - Dynamic Causal Effects Evaluation in A/B Testing with a Reinforcement
Learning Framework [68.96770035057716]
A/Bテスト(A/B Testing)は、新しい製品を製薬、技術、伝統産業の古い製品と比較するビジネス戦略である。
本稿では,オンライン実験においてA/Bテストを実施するための強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-05T10:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。