Fugu-MT 論文翻訳(概要): A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look

論文の概要: A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look

arxiv url: http://arxiv.org/abs/2411.08275v1
Date: Wed, 13 Nov 2024 01:12:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:47.122492
Title: A Large-Scale Study of Relevance Assessments with Large Language Models: An Initial Look
Title（参考訳）: 大規模言語モデルによる関連性評価に関する大規模研究:最初の考察
Authors: Shivani Upadhyay, Ronak Pradeep, Nandan Thakur, Daniel Campos, Nick Craswell, Ian Soboroff, Hoa Trang Dang, Jimmy Lin,
Abstract要約: 本稿では,4つの異なる関連性評価手法が展開された大規模評価(TREC 2024 RAG Track)の結果について報告する。自動生成UMBRELA判定は、完全に手動による判断を置き換えて、実行レベルの有効性を正確に捉えることができる。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。
参考スコア（独自算出の注目度）: 52.114284476700874
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The application of large language models to provide relevance assessments presents exciting opportunities to advance information retrieval, natural language processing, and beyond, but to date many unknowns remain. This paper reports on the results of a large-scale evaluation (the TREC 2024 RAG Track) where four different relevance assessment approaches were deployed in situ: the "standard" fully manual process that NIST has implemented for decades and three different alternatives that take advantage of LLMs to different extents using the open-source UMBRELA tool. This setup allows us to correlate system rankings induced by the different approaches to characterize tradeoffs between cost and quality. We find that in terms of nDCG@20, nDCG@100, and Recall@100, system rankings induced by automatically generated relevance assessments from UMBRELA correlate highly with those induced by fully manual assessments across a diverse set of 77 runs from 19 teams. Our results suggest that automatically generated UMBRELA judgments can replace fully manual judgments to accurately capture run-level effectiveness. Surprisingly, we find that LLM assistance does not appear to increase correlation with fully manual assessments, suggesting that costs associated with human-in-the-loop processes do not bring obvious tangible benefits. Overall, human assessors appear to be stricter than UMBRELA in applying relevance criteria. Our work validates the use of LLMs in academic TREC-style evaluations and provides the foundation for future studies.
Abstract（参考訳）: 関連性評価のための大規模言語モデルの応用は、情報検索、自然言語処理等を前進させるエキサイティングな機会を示しているが、現在では多くの未知が残っている。本報告では,NISTが数十年にわたって実施してきた「標準的な」完全手動プロセスと,オープンソースUMBRELAツールを用いて,LLMをさまざまな範囲に活用する3つの代替手段の4つの異なる関連性評価アプローチを実演する大規模評価(TREC 2024 RAG Track)の結果について報告する。この設定により、コストと品質のトレードオフを特徴づけるために、異なるアプローチによって引き起こされるシステムランキングを関連付けることができます。 NDCG@20, nDCG@100, Recall@100では, UMBRELAから自動生成された関連性評価によって引き起こされるシステムランキングが, 19チームから77名の多種多様なチームに対して完全に手動による評価によって引き起こされるシステムランキングと高く相関していることが判明した。以上の結果から,自動生成UMBRELA判定が完全手動判定に取って代わり,実行レベルの有効性を正確に把握できることが示唆された。意外なことに、LLMアシストは完全な手作業による評価と相関を増さないようで、人間のループプロセスに関連するコストは明らかな有意義な利益をもたらすものではないことを示唆している。全体として、人間評価者は、関係基準を適用する際に、UMBRELAよりも厳格であるようである。本研究は,学術的なTRECスタイルの評価におけるLLMの使用を検証するとともに,今後の研究の基盤を提供する。

関連論文リスト

Skewed Score: A statistical framework to assess autograders [2.9645858732618238]
LLM-as-a-judge"あるいはオートグラファーは、人間の評価に代わるスケーラブルな代替手段を提供する。彼らは様々な信頼性を示し、体系的なバイアスを示すかもしれない。そこで本稿では,研究者が自動分解器を同時に評価できる統計フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-04T18:45:10Z)
Benchmarking LLM-based Relevance Judgment Methods [15.255877686845773]
大規模言語モデル(LLM)は、学術的、産業的にもますます多くデプロイされている。我々は,2値関係判定,次級関係評価,相互選好に基づく手法,および2つのナゲットに基づく評価方法など,複数のLCMに基づく関連性評価手法を体系的に比較した。データリリースには、オープンソース(Llama3.2b)と商用(gpt-4o)モデルの両方で生成された関連判断が含まれています。
論文参考訳（メタデータ） (2025-04-17T01:13:21Z)
Judging the Judges: A Collection of LLM-Generated Relevance Judgements [37.103230004631996]
本稿では,SIGIR 2024におけるLLMJudgeの大規模自動妥当性評価の結果をベンチマークし,報告する。 8つの国際チームが作成したTREC 2023ディープラーニングトラック関連判定のラベルを42 LLMで作成し、ベンチマークする。
論文参考訳（メタデータ） (2025-02-19T17:40:32Z)
Limitations of Automatic Relevance Assessments with Large Language Models for Fair and Reliable Retrieval Evaluation [2.9180406633632523]
大規模言語モデル(LLM)は,自動関連性評価ツールとして注目されている。近年の研究では、LLMに基づく評価が、人為的判断と高いシステムランキングの相関をもたらすことが示されている。我々は,LLMによる判断が,上位評価システム間の順位差をいかに保っているか,また,人間の判断として相互に重要な評価を保っているかを検討する。
論文参考訳（メタデータ） (2024-11-20T11:19:35Z)
Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文参考訳（メタデータ） (2024-11-07T10:31:31Z)
CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。 CompassJudger-1は、優れた汎用性を示す汎用LLMである。 textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文参考訳（メタデータ） (2024-10-21T17:56:51Z)
Evaluation of Instruction-Following Ability for Large Language Models on Story-Ending Generation [2.4889060833127665]
本稿では,大規模言語モデル(LLM)の物語生成の文脈における指示追従能力の評価に焦点をあてる。本稿では,機械読影理解モデル(MRC)を用いた自動評価パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-24T06:53:36Z)
UMBRELA: UMbrela is the (Open-Source Reproduction of the) Bing RELevance Assessor [51.20527342770299]
UMBRELAはオープンソースツールキットで、OpenAIのGPT-4oモデルを使ってThomasらの結果を再現する。我々のツールキットは、容易に研究できるように設計されており、既存の多段階検索および評価パイプラインに統合することができる。 UMBRELAはTREC 2024RAGトラックで、関連性評価を支援するために使用される。
論文参考訳（メタデータ） (2024-06-10T17:58:29Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
Benchmarking Cognitive Biases in Large Language Models as Evaluators [16.845939677403287]
大規模言語モデル(LLM)は、簡単なプロンプトと文脈内学習を備えた自動評価器として有効であることが示されている。我々は,LLMの認知バイアスベンチマークを導入したランキングアウトプットの品質を評価対象として評価する。 LLMはテキスト品質評価器であり、バイアスベンチマークに強い指標を示す。
論文参考訳（メタデータ） (2023-09-29T06:53:10Z)
L-Eval: Instituting Standardized Evaluation for Long Context Language Models [91.05820785008527]
長い文脈言語モデル(LCLM)のより標準化された評価を行うためにL-Evalを提案する。 20のサブタスク、508の長いドキュメント、2000以上の人間ラベルのクエリ応答対を含む新しい評価スイートを構築した。その結果、一般的なn-gramマッチングの指標は人間の判断とよく相関しないことがわかった。
論文参考訳（メタデータ） (2023-07-20T17:59:41Z)
Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文参考訳（メタデータ） (2023-07-06T14:42:01Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。