論文の概要: LLM-Assisted Relevance Assessments: When Should We Ask LLMs for Help?
- arxiv url: http://arxiv.org/abs/2411.06877v1
- Date: Mon, 11 Nov 2024 11:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:06:54.295773
- Title: LLM-Assisted Relevance Assessments: When Should We Ask LLMs for Help?
- Title(参考訳): LLM-Assisted Relevance Assessments: LLMにいつ助けを求めるべきか?
- Authors: Rikiya Takehi, Ellen M. Voorhees, Tetsuya Sakai,
- Abstract要約: テストコレクションは、研究者がランキングアルゴリズムを迅速かつ容易に評価できる情報検索ツールである。
LLMアノテーションとマニュアルアノテーションのバランスをとるためにtextbfLLM-textbfAssisted textbfRelevance textbfAssessments (textbfLARA)を提案する。
- 参考スコア(独自算出の注目度): 18.663118865354427
- License:
- Abstract: Test collections are information retrieval tools that allow researchers to quickly and easily evaluate ranking algorithms. While test collections have become an integral part of IR research, the process of data creation involves significant efforts in manual annotations, which often makes it very expensive and time-consuming. Thus, the test collections could become small when the budget is limited, which may lead to unstable evaluations. As an alternative, recent studies have proposed the use of large language models (LLMs) to completely replace human assessors. However, while LLMs seem to somewhat correlate with human judgments, they are not perfect and often show bias. Moreover, even if a well-performing LLM or prompt is found on one dataset, there is no guarantee that it will perform similarly in practice, due to difference in tasks and data. Thus a complete replacement with LLMs is argued to be too risky and not fully trustable. Thus, in this paper, we propose \textbf{L}LM-\textbf{A}ssisted \textbf{R}elevance \textbf{A}ssessments (\textbf{LARA}), an effective method to balance manual annotations with LLM annotations, which helps to make a rich and reliable test collection. We use the LLM's predicted relevance probabilities in order to select the most profitable documents to manually annotate under a budget constraint. While solely relying on LLM's predicted probabilities to manually annotate performs fairly well, with theoretical reasoning, LARA guides the human annotation process even more effectively via online calibration learning. Then, using the calibration model learned from the limited manual annotations, LARA debiases the LLM predictions to annotate the remaining non-assessed data. Empirical evaluations on TREC-COVID and TREC-8 Ad Hoc datasets show that LARA outperforms the alternative solutions under almost any budget constraint.
- Abstract(参考訳): テストコレクションは、研究者がランキングアルゴリズムを迅速かつ容易に評価できる情報検索ツールである。
テストコレクションはIR研究の不可欠な部分となっているが、データ生成のプロセスは手動のアノテーションに多大な労力を要するため、非常に高価で時間を要することが多い。
したがって、予算が限られるとテストコレクションが小さくなり、不安定な評価につながる可能性がある。
代替として、近年の研究では、人間のアセスメントを完全に置き換えるための大規模言語モデル(LLM)が提案されている。
しかし、LSMは人間の判断と何らかの相関があるように見えるが、完全ではなく、しばしば偏見を示す。
さらに、あるデータセットで優れた性能のLLMやプロンプトが見つかったとしても、タスクやデータの違いにより、実際にも同様に実行されるという保証はない。
したがって、LLMの完全な置き換えは危険であり、完全に信頼できないと論じられている。
そこで,本稿では,手動アノテーションとLLMアノテーションのバランスをとる効果的な手法である,よりリッチで信頼性の高いテストコレクション作成を支援する方法として, \textbf{L}LM-\textbf{A}ssisted \textbf{R}elevance \textbf{A}ssessments (\textbf{LARA})を提案する。
予算制約の下で手作業でアノテートするための最も利益の高い文書を選択するために, LLM の予測関連性確率を用いている。
LARAは、手動で注釈を書けると予測されるLSMの確率にのみ依存するが、理論的理由から、LARAはオンライン校正学習を通じてより効果的に人間のアノテーションプロセスを導く。
次に、制限されたマニュアルアノテーションから学習した校正モデルを用いて、LARAはLCM予測を除いて、残りの非アセスドデータにアノテートする。
TREC-COVID と TREC-8 のアドホックデータセットに対する実証的な評価は、LARA がほぼあらゆる予算制約の下で代替ソリューションより優れていることを示している。
関連論文リスト
- Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval [55.63711219190506]
大きな言語モデル(LLM)は、しばしば適切な検索クエリのポーズに苦労する。
私たちは$underlineLe$arningを$underlineRe$trieveに$underlineT$rying (LeReT)を導入します。
LeReTは、絶対精度を最大29%向上し、下流ジェネレータの評価を17%向上させることができる。
論文 参考訳(メタデータ) (2024-10-30T17:02:54Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation [24.954629877691623]
TICK(Targeted Instruct-evaluation with ChecKlists)は、完全に自動化され、解釈可能な評価プロトコルである。
まず,LLMが高品質な評価チェックリストを確実に生成できることを示す。
次に、STICKは、自己精製とBest-of-N選択により、複数のベンチマークで生成品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:09:08Z) - Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation [2.0411082897313984]
本研究では,人間のアノテータと大規模言語モデルを統合する新しい手法を提案する。
提案フレームワークは, モデルの不確実性レベルに応じて, 人間のアノテーションとLLMの出力を統合する。
実験結果から, モデル精度の維持・改善を図りながら, データアノテーションに関連するコストを大幅に削減した。
論文 参考訳(メタデータ) (2024-06-17T21:45:48Z) - Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs [30.179703001666173]
大規模言語モデル(LLM)にとって、ファクチュアリティの問題は重要な問題である
我々は,かなり大きなテストデータセットを用いて,LLMの性能を評価するためにGraphEvalを提案する。
テストデータセットは、高価な人的努力なしで1000万以上の事実を持つ大規模な知識グラフから取得される。
論文 参考訳(メタデータ) (2024-04-01T06:01:17Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - BooookScore: A systematic exploration of book-length summarization in the era of LLMs [53.42917858142565]
我々は,識別されたエラータイプを一切含まない要約文の割合を計測する自動測度BooookScoreを開発した。
GPT-4 や 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。
論文 参考訳(メタデータ) (2023-10-01T20:46:44Z) - Using Large Language Models for Qualitative Analysis can Introduce
Serious Bias [0.09208007322096534]
大規模言語モデル(LLM)は急速に普及しつつあるが、社会科学研究の意義はまだよく分かっていない。
本稿では, バングラデシュのコックス・バザールにおけるロヒンギャ難民へのインタビューの書き起こしを応用して, オープンエンドインタビューから大規模Nの質的データを分析する上で, LLMが有効かどうかを問う。
LLMを使ってテキストに注釈を付けるには、誤解を招く可能性のあるバイアスを導入するリスクがあるため、非常に注意が必要であることが分かりました。
論文 参考訳(メタデータ) (2023-09-29T11:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。