論文の概要: Hybrid Pooling with LLMs via Relevance Context Learning
- arxiv url: http://arxiv.org/abs/2602.08457v1
- Date: Mon, 09 Feb 2026 10:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.160668
- Title: Hybrid Pooling with LLMs via Relevance Context Learning
- Title(参考訳): 関連文脈学習によるLLMによるハイブリッドポーリング
- Authors: David Otero, Javier Parapar,
- Abstract要約: 情報検索(IR)システムを評価するためには,大規模クエリセットに対する高品質な妥当性判定が不可欠である。
LLMは、最近、自動妥当性評価器として約束されているが、信頼性はまだ限られている。
関連文脈学習(Relevance Context Learning, RCL)は、人間の関連性判断を利用して、トピック固有の関連基準を明示的にモデル化する新しいフレームワークである。
- 参考スコア(独自算出の注目度): 5.10348690267577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality relevance judgements over large query sets are essential for evaluating Information Retrieval (IR) systems, yet manual annotation remains costly and time-consuming. Large Language Models (LLMs) have recently shown promise as automatic relevance assessors, but their reliability is still limited. Most existing approaches rely on zero-shot prompting or In-Context Learning (ICL) with a small number of labeled examples. However, standard ICL treats examples as independent instances and fails to explicitly capture the underlying relevance criteria of a topic, restricting its ability to generalize to unseen query-document pairs. To address this limitation, we introduce Relevance Context Learning (RCL), a novel framework that leverages human relevance judgements to explicitly model topic-specific relevance criteria. Rather than directly using labeled examples for in-context prediction, RCL first prompts an LLM (Instructor LLM) to analyze sets of judged query-document pairs and generate explicit narratives that describe what constitutes relevance for a given topic. These relevance narratives are then used as structured prompts to guide a second LLM (Assessor LLM) in producing relevance judgements. To evaluate RCL in a realistic data collection setting, we propose a hybrid pooling strategy in which a shallow depth-\textit{k} pool from participating systems is judged by human assessors, while the remaining documents are labeled by LLMs. Experimental results demonstrate that RCL substantially outperforms zero-shot prompting and consistently improves over standard ICL. Overall, our findings indicate that transforming relevance examples into explicit, context-aware relevance narratives is a more effective way of exploiting human judgements for LLM-based IR dataset construction.
- Abstract(参考訳): 大規模なクエリセットに対する高品質な関連判断は、情報検索(IR)システムを評価する上で不可欠であるが、手作業によるアノテーションは高価で時間を要する。
大規模言語モデル(LLM)は、最近、自動関連性評価器として約束されているが、信頼性はまだ限られている。
既存のほとんどのアプローチは、ラベル付きサンプルの少ないゼロショットプロンプトまたはインコンテキストラーニング(ICL)に依存している。
しかし、標準ICLは、例を独立インスタンスとして扱い、トピックの基本的な関連基準を明示的に捉えず、目に見えないクエリ-ドキュメントペアに一般化する能力を制限する。
この制限に対処するために、人間関係判断を利用してトピック固有の関連基準を明示的にモデル化する新しいフレームワーク、Relevance Context Learning (RCL)を導入する。
ラベル付き例をコンテキスト内予測に直接使用する代わりに、RCLはまずLLM(インストラクタLSM)に、判断されたクエリ-ドキュメントペアのセットを分析し、あるトピックの関連性を構成するものを記述する明示的な物語を生成するように促す。
これらの関連性に関する物語は、関連性判断を生成するための第2のLCM(Assessor LLM)を導くための構造化プロンプトとして使用される。
リアルなデータ収集環境でRCLを評価するために,本論文では,人間の評価者によって,残されている文書をLSMでラベル付けしながら,参加システムからの浅い深度\textit{k}プールを判断するハイブリットプール戦略を提案する。
実験により、RCLはゼロショットプロンプトよりも大幅に優れ、標準ICLよりも一貫して改善されていることが示された。
以上の結果から,LLMを用いたIRデータセット構築において,関連事例を明示的,文脈対応的な関連物語に変換することが,人間の判断を効果的に活用する方法であることが示唆された。
関連論文リスト
- Query-Document Dense Vectors for LLM Relevance Judgment Bias Analysis [4.719505127252616]
大規模言語モデル (LLM) は、情報検索 (IR) 評価収集のための関連評価器として使われている。
我々は、LLMが平均的にどれだけ良いかを単に理解するのではなく、関係を判断する際に体系的な誤りを犯すかどうかを理解することを目的としている。
クエリドキュメント(Q-D)ペアを結合意味空間に埋め込むクラスタリングベースのフレームワークを導入する。
論文 参考訳(メタデータ) (2026-01-05T03:02:33Z) - Rethinking On-policy Optimization for Query Augmentation [49.87723664806526]
本稿では,様々なベンチマークにおいて,プロンプトベースとRLベースのクエリ拡張の最初の体系的比較を示す。
そこで我々は,検索性能を最大化する擬似文書の生成を学習する,新しいハイブリッド手法 On-policy Pseudo-document Query Expansion (OPQE) を提案する。
論文 参考訳(メタデータ) (2025-10-20T04:16:28Z) - LGAR: Zero-Shot LLM-Guided Neural Ranking for Abstract Screening in Systematic Literature Reviews [0.9314555897827079]
体系的な文献レビューは、トピックに関するすべての関連論文を特定し評価することを目的としている。
現在までに、大型言語モデル(LLM)を用いた抽象的なスクリーニング手法はバイナリ分類設定に重点を置いている。
ゼロショットLLMガイド付き抽象ランクラであるLGARを提案する。
論文 参考訳(メタデータ) (2025-05-30T16:18:50Z) - Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling [69.84963245729826]
本稿では,検索者の後続のコントラスト学習のためのバックボーンを強化するために,QLの補助的タスクを提案する。
注意ブロック(AB)と文書破壊(DC)の2つの重要なコンポーネントを組み込んだモデルを紹介します。
論文 参考訳(メタデータ) (2025-04-07T16:03:59Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Contextualizing Search Queries In-Context Learning for Conversational Rewriting with LLMs [0.0]
本稿では,数発の対話型クエリ書き換えのための新しいアプローチであるPrompt-Guided In-Context Learningを紹介する。
提案手法では,タスク記述,入出力形式仕様,図示的な例を取り入れ,慎重に設計したプロンプトを用いている。
ベンチマークデータセットであるTRECとTaskmaster-1の実験は、我々のアプローチが強いベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2025-02-20T20:02:42Z) - ICLERB: In-Context Learning Embedding and Reranker Benchmark [45.40331863265474]
In-Context Learning (ICL)により、大規模言語モデルでは、関連する情報でプロンプトを条件付けすることで、新しいタスクを実行できる。
従来の検索手法は意味的関連性を重視し,検索を探索問題として扱う。
ICLタスクの効用を最大化する文書を選択することを目的としたレコメンデーション問題として、ICLのリフレーミング検索を提案する。
論文 参考訳(メタデータ) (2024-11-28T06:28:45Z) - Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - TALEC: Teach Your LLM to Evaluate in Specific Domain with In-house Criteria by Criteria Division and Zero-shot Plus Few-shot [3.0105173516143395]
本稿では,モデルに基づく評価手法 TALEC を提案する。
ユーザは自分の評価基準を柔軟に設定でき、インコンテキストラーニング(ICL)を使って審査員にこれらの評価基準を教えることができる。
TALECは人間の嗜好を正確に反映する強力な能力を示し、人間の判断と80%以上の相関を達成している。
論文 参考訳(メタデータ) (2024-06-25T10:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。