論文の概要: LLM-Assisted Relevance Assessments: When Should We Ask LLMs for Help?
- arxiv url: http://arxiv.org/abs/2411.06877v2
- Date: Fri, 31 Jan 2025 07:50:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-03 13:57:42.223392
- Title: LLM-Assisted Relevance Assessments: When Should We Ask LLMs for Help?
- Title(参考訳): LLM-Assisted Relevance Assessments: LLMにいつ助けを求めるべきか?
- Authors: Rikiya Takehi, Ellen M. Voorhees, Tetsuya Sakai, Ian Soboroff,
- Abstract要約: テストコレクションは、研究者がランキングアルゴリズムを迅速かつ容易に評価できる情報検索ツールである。
より安価な代替手段として、近年の研究では、人間のアセスメントを完全に置き換えるための大規模言語モデル(LLM)が提案されている。
低予算下でも、リッチで信頼性の高いテストコレクションを構築するのに役立つ、手動アノテーションとLLMアノテーションのバランスをとる効果的な方法であるLARAを提案する。
- 参考スコア(独自算出の注目度): 20.998805709422292
- License:
- Abstract: Test collections are information retrieval tools that allow researchers to quickly and easily evaluate ranking algorithms. While test collections have become an integral part of IR research, the process of data creation involves significant effort in manual annotations, which often makes it very expensive and time-consuming. Thus, test collections could become too small when the budget is limited, which may lead to unstable evaluations. As a cheaper alternative, recent studies have proposed the use of large language models (LLMs) to completely replace human assessors. However, while LLMs may seem to somewhat correlate with human judgments, their predictions are not perfect and often show bias. Thus a complete replacement with LLMs is argued to be too risky and not fully reliable. Thus, in this paper, we propose LLM-Assisted Relevance Assessments (LARA), an effective method to balance manual annotations with LLM annotations, which helps to build a rich and reliable test collection even under a low budget. We use the LLM's predicted relevance probabilities to select the most profitable documents to manually annotate under a budget constraint. With theoretical reasoning, LARA effectively guides the human annotation process by actively learning to calibrate the LLM's predicted relevance probabilities. Then, using the calibration model learned from the limited manual annotations, LARA debiases the LLM predictions to annotate the remaining non-assessed data. Empirical evaluations on TREC-7 Ad Hoc, TREC-8 Ad Hoc, TREC Robust 2004, and TREC-COVID datasets show that LARA outperforms alternative solutions under almost any budget constraint.
- Abstract(参考訳): テストコレクションは、研究者がランキングアルゴリズムを迅速かつ容易に評価できる情報検索ツールである。
テストコレクションはIR研究の不可欠な部分となっているが、データ生成のプロセスは手動のアノテーションに多大な労力を要するため、非常に高価で時間を要することが多い。
したがって、予算が限られるとテストコレクションが小さすぎる可能性があるため、不安定な評価につながる可能性がある。
より安価な代替手段として、近年の研究では、人間のアセスメントを完全に置き換えるための大規模言語モデル(LLM)が提案されている。
しかし、LSMは人間の判断と多少相関しているように見えるが、その予測は完璧ではなく、しばしばバイアスを示す。
したがって、LLMの完全な置換は危険であり、完全には信頼できないと論じられている。
そこで本研究では,LLMアノテーションと手動アノテーションのバランスをとる効果的な手法であるLLM-Assisted Relevance Assessments (LARA)を提案する。
我々は,LCMの予測関連性確率を用いて,予算制約の下で手作業で注釈を付けるために最も利益の高い文書を選択する。
理論的推論により、LARAはLLMの予測される関連性確率を校正するために積極的に学習することで、人間のアノテーションプロセスを効果的に導く。
次に、制限されたマニュアルアノテーションから学習した校正モデルを用いて、LARAはLCM予測を除いて、残りの非アセスドデータにアノテートする。
TREC-7 Ad Hoc, TREC-8 Ad Hoc, TREC Robust 2004, TREC-COVIDデータセットの実証的な評価は、LARAがほぼあらゆる予算制約の下で代替ソリューションより優れていることを示している。
関連論文リスト
- Large Language Models: An Applied Econometric Framework [1.348318541691744]
我々はこの問題に答えるための計量的枠組みを開発する。
LLMのトレーニングデータセットと研究者のサンプルの間に「漏れがない」という条件下では、予測問題にLLMを使用することは有効である。
これらの要件は厳密であり、それらが破られると、LLMの制限は信頼できない経験的推定をもたらす。
論文 参考訳(メタデータ) (2024-12-09T22:37:48Z) - Dynamic Uncertainty Ranking: Enhancing Retrieval-Augmented In-Context Learning for Long-Tail Knowledge in LLMs [50.29035873837]
大規模言語モデル(LLM)は、事前訓練中に多様なドメインから膨大な量の知識を学習することができる。
専門ドメインからの長い尾の知識は、しばしば不足し、表現されていないため、モデルの記憶にはほとんど現れない。
ICLの強化学習に基づく動的不確実性ランキング手法を提案する。
論文 参考訳(メタデータ) (2024-10-31T03:42:17Z) - Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。
私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。
LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文 参考訳(メタデータ) (2024-10-30T17:02:54Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation [24.954629877691623]
TICK(Targeted Instruct-evaluation with ChecKlists)は、完全に自動化され、解釈可能な評価プロトコルである。
まず,LLMが高品質な評価チェックリストを確実に生成できることを示す。
次に、STICKは、自己精製とBest-of-N選択により、複数のベンチマークで生成品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:09:08Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs [30.179703001666173]
大規模言語モデル(LLM)にとって、ファクチュアリティの問題は重要な問題である
我々は,かなり大きなテストデータセットを用いて,LLMの性能を評価するためにGraphEvalを提案する。
テストデータセットは、高価な人的努力なしで1000万以上の事実を持つ大規模な知識グラフから取得される。
論文 参考訳(メタデータ) (2024-04-01T06:01:17Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。