Fugu-MT 論文翻訳(概要): Validating LLM-Generated Relevance Labels for Educational Resource Search

論文の概要: Validating LLM-Generated Relevance Labels for Educational Resource Search

arxiv url: http://arxiv.org/abs/2504.12732v1
Date: Thu, 17 Apr 2025 08:14:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-25 22:07:43.740953
Title: Validating LLM-Generated Relevance Labels for Educational Resource Search
Title（参考訳）: 教育資源探索のためのLLM生成関連ラベルの検証
Authors: Ratan J. Sebastian, Anett Hoppe,
Abstract要約: 本研究は,教師が授業計画に関連する検索タスクを実行することを含むユーザスタディから,401人の人間関係判断データセットを作成した。ドメイン固有のフレームワークを使用して、LLMは人間の判断と強く一致した。システムレベル評価の結果,LLM判定は高い性能の検索手法を確実に同定した。
参考スコア（独自算出の注目度）: 2.2175950967382487
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Manual relevance judgements in Information Retrieval are costly and require expertise, driving interest in using Large Language Models (LLMs) for automatic assessment. While LLMs have shown promise in general web search scenarios, their effectiveness for evaluating domain-specific search results, such as educational resources, remains unexplored. To investigate different ways of including domain-specific criteria in LLM prompts for relevance judgement, we collected and released a dataset of 401 human relevance judgements from a user study involving teaching professionals performing search tasks related to lesson planning. We compared three approaches to structuring these prompts: a simple two-aspect evaluation baseline from prior work on using LLMs as relevance judges, a comprehensive 12-dimensional rubric derived from educational literature, and criteria directly informed by the study participants. Using domain-specific frameworks, LLMs achieved strong agreement with human judgements (Cohen's $\kappa$ up to 0.650), significantly outperforming the baseline approach. The participant-derived framework proved particularly robust, with GPT-3.5 achieving $\kappa$ scores of 0.639 and 0.613 for 10-dimension and 5-dimension versions respectively. System-level evaluation showed that LLM judgements reliably identified top-performing retrieval approaches (RBO scores 0.71-0.76) while maintaining reasonable discrimination between systems (RBO 0.52-0.56). These findings suggest that LLMs can effectively evaluate educational resources when prompted with domain-specific criteria, though performance varies with framework complexity and input structure.
Abstract（参考訳）: 情報検索における手動の関連性判断は費用がかかり、専門知識が必要であり、自動評価にLLM(Large Language Models)を使用することへの関心を喚起する。 LLMは一般的なWeb検索のシナリオにおいて有望であるが、教育資源などドメイン固有の検索結果を評価するための有効性は未解明のままである。 LLMプロンプトにドメイン固有の基準を組み込んで関連性判断を行うために,本研究では,授業計画に関連する探索課題を専門職に教えるユーザスタディから,401人の関連性判定データセットを収集,公開した。本研究は,LLMを関連審査員として使用するための先行研究から得られた簡易な2視点評価基準,教育文献から派生した総合的な12次元ルーブリック,研究参加者から直接の情報を得た基準,の3つの手法を比較した。ドメイン固有のフレームワークを使用して、LLMは人間の判断(コーエンの$\kappa$から0.650まで)と強い合意を達成し、ベースラインアプローチを著しく上回った。 GPT-3.5は10次元と5次元のそれぞれ0.639と0.613のスコアを得た。システムレベルの評価では、LLM判定は、システム間の適切な識別を維持しつつ、トップパフォーマンス検索アプローチ(RBOスコア0.71-0.76)を確実に特定している。これらの結果から, LLMは, フレームワークの複雑さや入力構造によって異なるが, ドメイン固有の基準で学習資源を効果的に評価できることが示唆された。

関連論文リスト

Criteria-Based LLM Relevance Judgments [5.478764356647438]
大規模言語モデル(LLM)は、プロンプトを通じて関連ラベルを直接生成することで、スケーラブルなソリューションを提供する。 LLMに基づく関連判断のための多基準フレームワークを提案し、関連性の概念を複数の基準に分解する。以上の結果から,マルチクオリトリア判定はシステムランキング・リーダーボードの性能を向上させることが示唆された。
論文参考訳（メタデータ） (2025-07-13T04:21:21Z)
LLM-Driven Usefulness Judgment for Web Search Evaluation [12.10711284043516]
情報検索(IR)における検索体験の最適化と多種多様なユーザ意図支援の基礎的評価従来の検索評価手法は主に関連ラベルに依存しており、検索された文書がユーザのクエリとどのようにマッチするかを評価する。本稿では,文書の有用性を評価するために,暗黙的かつ明示的なユーザ行動信号の両方を組み込んだLCM生成実用性ラベルを提案する。
論文参考訳（メタデータ） (2025-04-19T20:38:09Z)
Benchmarking LLM-based Relevance Judgment Methods [15.255877686845773]
大規模言語モデル(LLM)は、学術的、産業的にもますます多くデプロイされている。我々は,2値関係判定,次級関係評価,相互選好に基づく手法,および2つのナゲットに基づく評価方法など,複数のLCMに基づく関連性評価手法を体系的に比較した。データリリースには、オープンソース(Llama3.2b)と商用(gpt-4o)モデルの両方で生成された関連判断が含まれています。
論文参考訳（メタデータ） (2025-04-17T01:13:21Z)
Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文参考訳（メタデータ） (2025-04-01T09:36:56Z)
Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文参考訳（メタデータ） (2025-02-21T02:03:08Z)
Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。既存のベンチマークはデータ汚染の傾向があります。個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文参考訳（メタデータ） (2025-01-13T05:53:56Z)
A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look [52.114284476700874]
本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
論文参考訳（メタデータ） (2024-11-13T01:12:35Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。 BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文参考訳（メタデータ） (2023-11-07T06:36:39Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。