論文の概要: LLM-based Relevance Assessment for Web-Scale Search Evaluation at Pinterest
- arxiv url: http://arxiv.org/abs/2509.03764v1
- Date: Wed, 03 Sep 2025 23:07:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.992586
- Title: LLM-based Relevance Assessment for Web-Scale Search Evaluation at Pinterest
- Title(参考訳): PinterestにおけるWebスケール検索評価のためのLLMに基づく関連性評価
- Authors: Han Wang, Alex Whitworth, Pak Ming Cheung, Zhenjie Zhang, Krishna Kamath,
- Abstract要約: 我々はPinterest Searchで、微調整LDMを用いたオンライン実験の妥当性評価を自動化する手法を提案する。
LLMによる判断と人間のアノテーションの一致を厳格に検証する。
このアプローチは、高品質な関連指標をもたらし、オンライン実験における最小検出効果(MDE)を著しく低減する。
- 参考スコア(独自算出の注目度): 3.306725465028306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relevance evaluation plays a crucial role in personalized search systems to ensure that search results align with a user's queries and intent. While human annotation is the traditional method for relevance evaluation, its high cost and long turnaround time limit its scalability. In this work, we present our approach at Pinterest Search to automate relevance evaluation for online experiments using fine-tuned LLMs. We rigorously validate the alignment between LLM-generated judgments and human annotations, demonstrating that LLMs can provide reliable relevance measurement for experiments while greatly improving the evaluation efficiency. Leveraging LLM-based labeling further unlocks the opportunities to expand the query set, optimize sampling design, and efficiently assess a wider range of search experiences at scale. This approach leads to higher-quality relevance metrics and significantly reduces the Minimum Detectable Effect (MDE) in online experiment measurements.
- Abstract(参考訳): パーソナライズされた検索システムでは,検索結果がユーザのクエリや意図と一致することを保証するために,関連性評価が重要な役割を担っている。
人間のアノテーションは関連性評価の伝統的な方法であるが、その高いコストと長いターンアラウンドタイムはスケーラビリティを制限している。
本研究では, Pinterest Search において, 微調整 LLM を用いたオンライン実験の妥当性評価を自動化する手法を提案する。
我々は, LLM生成判定と人間のアノテーションとの整合性を厳格に検証し, 評価効率を大幅に向上しつつ, LLMが実験に信頼性の高い妥当性測定を提供できることを示した。
LLMベースのラベリングを活用することで、クエリセットを拡張し、最適化設計を最適化し、大規模な検索エクスペリエンスを効率的に評価することが可能になる。
このアプローチは、高品質な関連指標をもたらし、オンライン実験における最小検出効果(MDE)を著しく低減する。
関連論文リスト
- Exploring the Potential of LLMs for Serendipity Evaluation in Recommender Systems [10.227007419503297]
大規模言語モデル(LLM)は、様々な人間のアノテーションタスクで評価手法に革命をもたらしている。
電子商取引および映画分野における実際のユーザ研究から得られた2つのデータセットのメタ評価を行う。
以上の結果から,最も単純なゼロショットLLMであっても,従来の測定値と同等あるいは超える性能が得られることが示唆された。
論文 参考訳(メタデータ) (2025-07-23T07:51:56Z) - Leveraging LLMs to Evaluate Usefulness of Document [25.976948104719746]
本稿では,ユーザの検索コンテキストと行動データを大規模言語モデルに統合する,新たなユーザ中心評価フレームワークを提案する。
本研究は,文脈情報や行動情報に精通したLLMが有用性を正確に評価できることを実証する。
また,本手法で作成したラベルをユーザ満足度予測に適用し,実世界の実験により,これらのラベルが満足度予測モデルの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-06-10T09:44:03Z) - LLM-Driven Usefulness Judgment for Web Search Evaluation [12.10711284043516]
情報検索(IR)における検索体験の最適化と多種多様なユーザ意図支援の基礎的評価
従来の検索評価手法は主に関連ラベルに依存しており、検索された文書がユーザのクエリとどのようにマッチするかを評価する。
本稿では,文書の有用性を評価するために,暗黙的かつ明示的なユーザ行動信号の両方を組み込んだLCM生成実用性ラベルを提案する。
論文 参考訳(メタデータ) (2025-04-19T20:38:09Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。