論文の概要: LLM-Driven Usefulness Judgment for Web Search Evaluation
- arxiv url: http://arxiv.org/abs/2504.14401v1
- Date: Sat, 19 Apr 2025 20:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:49:11.537448
- Title: LLM-Driven Usefulness Judgment for Web Search Evaluation
- Title(参考訳): LLMによるWeb検索評価のための有用性判断
- Authors: Mouly Dewan, Jiqun Liu, Aditya Gautam, Chirag Shah,
- Abstract要約: 情報検索(IR)における検索体験の最適化と多種多様なユーザ意図支援の基礎的評価
従来の検索評価手法は主に関連ラベルに依存しており、検索された文書がユーザのクエリとどのようにマッチするかを評価する。
本稿では,文書の有用性を評価するために,暗黙的かつ明示的なユーザ行動信号の両方を組み込んだLCM生成実用性ラベルを提案する。
- 参考スコア(独自算出の注目度): 12.10711284043516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluation is fundamental in optimizing search experiences and supporting diverse user intents in Information Retrieval (IR). Traditional search evaluation methods primarily rely on relevance labels, which assess how well retrieved documents match a user's query. However, relevance alone fails to capture a search system's effectiveness in helping users achieve their search goals, making usefulness a critical evaluation criterion. In this paper, we explore an alternative approach: LLM-generated usefulness labels, which incorporate both implicit and explicit user behavior signals to evaluate document usefulness. We propose Task-aware Rubric-based Usefulness Evaluation (TRUE), a rubric-driven evaluation method that employs iterative sampling and reasoning to model complex search behavior patterns. Our findings show that (i) LLMs can generate moderate usefulness labels by leveraging comprehensive search session history incorporating personalization and contextual understanding, and (ii) fine-tuned LLMs improve usefulness judgments when provided with structured search session contexts. Additionally, we examine whether LLMs can distinguish between relevance and usefulness, particularly in cases where this divergence impacts search success. We also conduct an ablation study to identify key metrics for accurate usefulness label generation, optimizing for token efficiency and cost-effectiveness in real-world applications. This study advances LLM-based usefulness evaluation by refining key user metrics, exploring LLM-generated label reliability, and ensuring feasibility for large-scale search systems.
- Abstract(参考訳): 検索エクスペリエンスの最適化と,情報検索(IR)における多様なユーザ意図のサポートには,評価が不可欠である。
従来の検索評価手法は主に関連ラベルに依存しており、検索された文書がユーザのクエリとどのようにマッチするかを評価する。
しかし,検索の目的達成を支援する検索システムの有効性は,関連性だけでは得られず,有用性は重要な評価基準となる。
本稿では,文書の有用性を評価するために,暗黙的かつ明示的なユーザ行動信号の両方を組み込んだLCM生成実用性ラベルについて検討する。
本稿では,複雑な探索行動パターンをモデル化するための反復サンプリングと推論を用いたルーブリック駆動評価手法である,タスク対応ルーブリックベース有用性評価(TRUE)を提案する。
以上の結果から
i)LLMは、パーソナライズと文脈理解を取り入れた総合的な検索セッション履歴を活用することで、適度な有用性ラベルを生成することができる。
(II) 構造化された検索セッションコンテキストを備えた場合, 微調整LDMにより有用性判定が向上する。
さらに,この分散が検索成功に影響を及ぼす場合において,LLMが関連性と有用性を区別できるかどうかを検討する。
また,実世界のアプリケーションにおいて,トークン効率とコスト効率を最適化して,正確な有用性ラベル生成のための重要な指標を特定するためのアブレーション研究も行っている。
本研究では,鍵となるユーザメトリクスを精査し,LLM生成ラベルの信頼性を探究し,大規模検索システムの実現可能性を確保することにより,LLMに基づく有用性評価を推し進める。
関連論文リスト
- Leveraging LLMs for Utility-Focused Annotation: Reducing Manual Effort for Retrieval and RAG [69.51637252264277]
本研究では,Large Language Models (LLMs) が,検索モデルのトレーニングにおいて,人間のアノテーションを効果的に置き換えられるかどうかを検討する。
提案実験により,実用性を重視したアノテーションを訓練したレトリバーは,ドメイン外設定でトレーニングしたアノテーションを有意に上回った。
20%の人間アノテーションでトレーニングされたデータだけで、ユーティリティ中心のアノテーションでトレーニングされたレトリバーが、完全に人間のアノテーションでトレーニングされたモデルのパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2025-04-07T16:05:52Z) - LLM-Driven Usefulness Labeling for IR Evaluation [13.22615100911924]
本研究は,ユーザの検索意図と課題目標を考慮した重要な評価指標であるLCM生成実用性ラベルに焦点を当てた。
本実験では,タスクレベル,クエリレベル,文書レベルの特徴と,文書の有用性を定義する上で欠かせないユーザ検索行動信号を利用する。
論文 参考訳(メタデータ) (2025-03-12T00:07:39Z) - Rank-R1: Enhancing Reasoning in LLM-based Document Rerankers via Reinforcement Learning [76.50690734636477]
ランキングタスクを実行する前にユーザクエリと候補文書の両方を推論する新しいLCMベースのリランカである Rank-R1 を導入する。
TREC DL と BRIGHT データセットを用いた実験により,Ranc-R1 が特に複雑なクエリに対して非常に有効であることが判明した。
論文 参考訳(メタデータ) (2025-03-08T03:14:26Z) - Automated Query-Product Relevance Labeling using Large Language Models for E-commerce Search [3.392843594990172]
クエリとプロダクトのペアをアノテートするための従来のアプローチは、人間ベースのラベリングサービスに依存している。
本研究では,Large Language Models (LLMs) が,人間ラベル作成者に必要な時間とコストのごく一部で,このタスクにおける人間レベルの精度にアプローチ可能であることを示す。
この拡張性のある人間のアノテーションの代替は、情報検索領域に重大な影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-21T22:59:36Z) - Latent Factor Models Meets Instructions:Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - From Human Annotation to LLMs: SILICON Annotation Workflow for Management Research [13.818244562506138]
LLM(Large Language Models)は、人間のアノテーションに対する費用対効果と効率的な代替手段を提供する。
本稿では、SILICON (Systematic Inference with LLMs for Information Classification and Notation) ワークフローを紹介する。
このワークフローは、人間のアノテーションの確立した原則と、体系的な迅速な最適化とモデル選択を統合している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - LLM-assisted Explicit and Implicit Multi-interest Learning Framework for Sequential Recommendation [50.98046887582194]
本研究では,ユーザの興味を2つのレベル – 行動と意味論 – でモデル化する,明示的で暗黙的な多目的学習フレームワークを提案する。
提案するEIMFフレームワークは,小型モデルとLLMを効果的に組み合わせ,多目的モデリングの精度を向上させる。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。
ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-08-18T11:07:38Z) - LLMJudge: LLMs for Relevance Judgments [37.103230004631996]
この挑戦は、SIGIR 2024のLLM4Evalワークショップの一部として組織されている。
近年の研究では,LLMが検索システムに対して信頼性の高い妥当性判定を生成できることが示されている。
収集したデータは、自動関連判断研究を支援するパッケージとして公開される。
論文 参考訳(メタデータ) (2024-08-09T23:15:41Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。