論文の概要: LLM-Driven Usefulness Labeling for IR Evaluation
- arxiv url: http://arxiv.org/abs/2503.08965v1
- Date: Wed, 12 Mar 2025 00:07:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 21:17:52.56685
- Title: LLM-Driven Usefulness Labeling for IR Evaluation
- Title(参考訳): 赤外線評価のためのLCM駆動型実用性ラベルリング
- Authors: Mouly Dewan, Jiqun Liu, Chirag Shah,
- Abstract要約: 本研究は,ユーザの検索意図と課題目標を考慮した重要な評価指標であるLCM生成実用性ラベルに焦点を当てた。
本実験では,タスクレベル,クエリレベル,文書レベルの特徴と,文書の有用性を定義する上で欠かせないユーザ検索行動信号を利用する。
- 参考スコア(独自算出の注目度): 13.22615100911924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the information retrieval (IR) domain, evaluation plays a crucial role in optimizing search experiences and supporting diverse user intents. In the recent LLM era, research has been conducted to automate document relevance labels, as these labels have traditionally been assigned by crowd-sourced workers - a process that is both time and consuming and costly. This study focuses on LLM-generated usefulness labels, a crucial evaluation metric that considers the user's search intents and task objectives, an aspect where relevance falls short. Our experiment utilizes task-level, query-level, and document-level features along with user search behavior signals, which are essential in defining the usefulness of a document. Our research finds that (i) pre-trained LLMs can generate moderate usefulness labels by understanding the comprehensive search task session, (ii) pre-trained LLMs perform better judgement in short search sessions when provided with search session contexts. Additionally, we investigated whether LLMs can capture the unique divergence between relevance and usefulness, along with conducting an ablation study to identify the most critical metrics for accurate usefulness label generation. In conclusion, this work explores LLM-generated usefulness labels by evaluating critical metrics and optimizing for practicality in real-world settings.
- Abstract(参考訳): 情報検索(IR)領域では,検索体験を最適化し,多様なユーザ意図をサポートする上で,評価が重要な役割を担っている。
近年のLCM時代において、これらのラベルは伝統的にクラウドソース労働者によって割り当てられてきたため、文書関連ラベルの自動化が研究されている。
本研究は, 利用者の検索意図と課題目標を考慮した重要な評価指標であるLCM生成実用性ラベルに着目し, 関連性に欠ける側面について考察する。
本実験では,タスクレベル,クエリレベル,文書レベルの特徴と,文書の有用性を定義する上で欠かせないユーザ検索行動信号を利用する。
私たちの研究でわかったのは
i)事前学習したLLMは、総合的な検索タスクセッションを理解することにより、適度な有用性ラベルを生成することができる。
(II)事前学習したLLMは,検索セッションのコンテキストが与えられた場合,短い検索セッションにおいてより良い判断を行う。
さらに,LSMが関連性と有用性の間の特異な相違を捉えることができるか,また,正確な有用性ラベル生成のための最も重要な指標を特定するためのアブレーション研究を行うかを検討した。
結論として,本研究では,LLMが生成する有用性ラベルについて,重要な指標を評価し,実環境における実用性を最適化することによって検討する。
関連論文リスト
- LLM-Driven Usefulness Judgment for Web Search Evaluation [12.10711284043516]
情報検索(IR)における検索体験の最適化と多種多様なユーザ意図支援の基礎的評価
従来の検索評価手法は主に関連ラベルに依存しており、検索された文書がユーザのクエリとどのようにマッチするかを評価する。
本稿では,文書の有用性を評価するために,暗黙的かつ明示的なユーザ行動信号の両方を組み込んだLCM生成実用性ラベルを提案する。
論文 参考訳(メタデータ) (2025-04-19T20:38:09Z) - Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。
学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。
我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文 参考訳(メタデータ) (2025-04-14T14:52:28Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Leveraging LLMs for Utility-Focused Annotation: Reducing Manual Effort for Retrieval and RAG [69.51637252264277]
本研究では,Large Language Models (LLMs) が,検索モデルのトレーニングにおいて,人間のアノテーションを効果的に置き換えられるかどうかを検討する。
提案実験により,実用性を重視したアノテーションを訓練したレトリバーは,ドメイン外設定でトレーニングしたアノテーションを有意に上回った。
20%の人間アノテーションでトレーニングされたデータだけで、ユーティリティ中心のアノテーションでトレーニングされたレトリバーが、完全に人間のアノテーションでトレーニングされたモデルのパフォーマンスにマッチする。
論文 参考訳(メタデータ) (2025-04-07T16:05:52Z) - Automated Query-Product Relevance Labeling using Large Language Models for E-commerce Search [3.392843594990172]
クエリとプロダクトのペアをアノテートするための従来のアプローチは、人間ベースのラベリングサービスに依存している。
本研究では,Large Language Models (LLMs) が,人間ラベル作成者に必要な時間とコストのごく一部で,このタスクにおける人間レベルの精度にアプローチ可能であることを示す。
この拡張性のある人間のアノテーションの代替は、情報検索領域に重大な影響を及ぼす。
論文 参考訳(メタデータ) (2025-02-21T22:59:36Z) - Latent Factor Models Meets Instructions:Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - From Human Annotation to LLMs: SILICON Annotation Workflow for Management Research [13.818244562506138]
LLM(Large Language Models)は、人間のアノテーションに対する費用対効果と効率的な代替手段を提供する。
本稿では、SILICON (Systematic Inference with LLMs for Information Classification and Notation) ワークフローを紹介する。
このワークフローは、人間のアノテーションの確立した原則と、体系的な迅速な最適化とモデル選択を統合している。
論文 参考訳(メタデータ) (2024-12-19T02:21:41Z) - Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。
ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-08-18T11:07:38Z) - LLMJudge: LLMs for Relevance Judgments [37.103230004631996]
この挑戦は、SIGIR 2024のLLM4Evalワークショップの一部として組織されている。
近年の研究では,LLMが検索システムに対して信頼性の高い妥当性判定を生成できることが示されている。
収集したデータは、自動関連判断研究を支援するパッケージとして公開される。
論文 参考訳(メタデータ) (2024-08-09T23:15:41Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文 参考訳(メタデータ) (2023-10-19T02:12:17Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。