論文の概要: LLM-Driven Usefulness Labeling for IR Evaluation
- arxiv url: http://arxiv.org/abs/2503.08965v1
- Date: Wed, 12 Mar 2025 00:07:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:38:06.016837
- Title: LLM-Driven Usefulness Labeling for IR Evaluation
- Title(参考訳): 赤外線評価のためのLCM駆動型実用性ラベルリング
- Authors: Mouly Dewan, Jiqun Liu, Chirag Shah,
- Abstract要約: 本研究は,ユーザの検索意図と課題目標を考慮した重要な評価指標であるLCM生成実用性ラベルに焦点を当てた。
本実験では,タスクレベル,クエリレベル,文書レベルの特徴と,文書の有用性を定義する上で欠かせないユーザ検索行動信号を利用する。
- 参考スコア(独自算出の注目度): 13.22615100911924
- License:
- Abstract: In the information retrieval (IR) domain, evaluation plays a crucial role in optimizing search experiences and supporting diverse user intents. In the recent LLM era, research has been conducted to automate document relevance labels, as these labels have traditionally been assigned by crowd-sourced workers - a process that is both time and consuming and costly. This study focuses on LLM-generated usefulness labels, a crucial evaluation metric that considers the user's search intents and task objectives, an aspect where relevance falls short. Our experiment utilizes task-level, query-level, and document-level features along with user search behavior signals, which are essential in defining the usefulness of a document. Our research finds that (i) pre-trained LLMs can generate moderate usefulness labels by understanding the comprehensive search task session, (ii) pre-trained LLMs perform better judgement in short search sessions when provided with search session contexts. Additionally, we investigated whether LLMs can capture the unique divergence between relevance and usefulness, along with conducting an ablation study to identify the most critical metrics for accurate usefulness label generation. In conclusion, this work explores LLM-generated usefulness labels by evaluating critical metrics and optimizing for practicality in real-world settings.
- Abstract(参考訳): 情報検索(IR)領域では,検索体験を最適化し,多様なユーザ意図をサポートする上で,評価が重要な役割を担っている。
近年のLCM時代において、これらのラベルは伝統的にクラウドソース労働者によって割り当てられてきたため、文書関連ラベルの自動化が研究されている。
本研究は, 利用者の検索意図と課題目標を考慮した重要な評価指標であるLCM生成実用性ラベルに着目し, 関連性に欠ける側面について考察する。
本実験では,タスクレベル,クエリレベル,文書レベルの特徴と,文書の有用性を定義する上で欠かせないユーザ検索行動信号を利用する。
私たちの研究でわかったのは
i)事前学習したLLMは、総合的な検索タスクセッションを理解することにより、適度な有用性ラベルを生成することができる。
(II)事前学習したLLMは,検索セッションのコンテキストが与えられた場合,短い検索セッションにおいてより良い判断を行う。
さらに,LSMが関連性と有用性の間の特異な相違を捉えることができるか,また,正確な有用性ラベル生成のための最も重要な指標を特定するためのアブレーション研究を行うかを検討した。
結論として,本研究では,LLMが生成する有用性ラベルについて,重要な指標を評価し,実環境における実用性を最適化することによって検討する。
関連論文リスト
- From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - Towards Boosting LLMs-driven Relevance Modeling with Progressive Retrieved Behavior-augmented Prompting [23.61061000692023]
本研究では,検索ログに記録されたユーザインタラクションを活用して,ユーザの暗黙の検索意図に対する洞察を得ることを提案する。
ProRBPは,探索シナリオ指向の知識を大規模言語モデルと統合するための,プログレッシブ検索行動拡張型プロンプトフレームワークである。
論文 参考訳(メタデータ) (2024-08-18T11:07:38Z) - LLMJudge: LLMs for Relevance Judgments [37.103230004631996]
この挑戦は、SIGIR 2024のLLM4Evalワークショップの一部として組織されている。
近年の研究では,LLMが検索システムに対して信頼性の高い妥当性判定を生成できることが示されている。
収集したデータは、自動関連判断研究を支援するパッケージとして公開される。
論文 参考訳(メタデータ) (2024-08-09T23:15:41Z) - DCA-Bench: A Benchmark for Dataset Curation Agents [9.60250892491588]
隠れたデータセットの品質問題を検知する大規模言語モデルの能力を測定するために,データセットキュレーションエージェントベンチマークであるDCA-Benchを提案する。
具体的には、テストベッドとして8つのオープンデータセットプラットフォームから、さまざまな実世界のデータセット品質の問題を収集します。
提案したベンチマークは、単に問題解決を行うのではなく、問題発見におけるLLMの能力を測定するためのテストベッドとしても機能する。
論文 参考訳(メタデータ) (2024-06-11T14:02:23Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - The Shifted and The Overlooked: A Task-oriented Investigation of
User-GPT Interactions [114.67699010359637]
実際のユーザクエリの大規模なコレクションをGPTに解析する。
ユーザインタラクションでは'設計'や'計画'といったタスクが一般的だが,従来のNLPベンチマークとは大きく異なる。
論文 参考訳(メタデータ) (2023-10-19T02:12:17Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A
Preliminary Study on Writing Assistance [60.40541387785977]
小さな基礎モデルは、命令駆動データを用いて微調整された場合、多様なタスクに対処する際、顕著な習熟度を示すことができる。
本研究は, 汎用的な指導よりも, 1つないし数つの特定のタスクに主眼を置いている, 実践的な問題設定について検討する。
実験結果から,命令データに対する微調整LLaMAは,タスクの記述能力を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-05-22T16:56:44Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。