論文の概要: ALLURE: A Systematic Protocol for Auditing and Improving LLM-based
Evaluation of Text using Iterative In-Context-Learning
- arxiv url: http://arxiv.org/abs/2309.13701v1
- Date: Sun, 24 Sep 2023 17:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 18:03:03.435173
- Title: ALLURE: A Systematic Protocol for Auditing and Improving LLM-based
Evaluation of Text using Iterative In-Context-Learning
- Title(参考訳): ALLURE:反復的インテクスト学習を用いたLLMによるテキストの評価と改善のための体系的プロトコル
- Authors: Hosein Hasanbeig and Hiteshi Sharma and Leo Betthauser and Felipe
Vieira Frujeri and Ida Momennejad
- Abstract要約: ALLUREは、大規模言語モデルを理解するための体系的なアプローチである。
我々は,評価器LLMの性能を向上し,究極的には評価プロセスにおける人間のアノテータへの依存を減らすことを目的としている。
- 参考スコア(独自算出の注目度): 7.457517083017178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: From grading papers to summarizing medical documents, large language models
(LLMs) are evermore used for evaluation of text generated by humans and AI
alike. However, despite their extensive utility, LLMs exhibit distinct failure
modes, necessitating a thorough audit and improvement of their text evaluation
capabilities. Here we introduce ALLURE, a systematic approach to Auditing Large
Language Models Understanding and Reasoning Errors. ALLURE involves comparing
LLM-generated evaluations with annotated data, and iteratively incorporating
instances of significant deviation into the evaluator, which leverages
in-context learning (ICL) to enhance and improve robust evaluation of text by
LLMs. Through this iterative process, we aim to refine the performance of the
evaluator LLM, ultimately reducing the reliance on human annotators in the
evaluation process. We anticipate ALLURE to serve diverse applications of LLMs
in various domains related to evaluation of textual data and productivity in
these fields.
- Abstract(参考訳): 論文の分類から医学文書の要約に至るまで、人間やAIが生成するテキストの評価には、大型言語モデル(LLM)が使用される。
しかし、LLMは広範な実用性にもかかわらず、個別の障害モードを示し、徹底的な監査とテキスト評価機能の改善が必要である。
ここでは,大規模言語モデルの理解と推論の誤りを監査するための体系的アプローチであるallureを紹介する。
ALLUREは、LCM生成した評価を注釈付きデータと比較し、ICL(In-context Learning)を活用してLCMによるテキストの堅牢な評価を強化し改善する評価器に、重要な偏差の事例を反復的に組み込む。
この反復的なプロセスを通じて評価器llmの性能を洗練し、最終的に評価プロセスにおける人間の注釈への依存を減らすことを目指している。
これらの分野におけるテキストデータの評価と生産性に関する様々な分野におけるLCMの多様な応用を期待する。
関連論文リスト
- Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Can Large Language Models be Trusted for Evaluation? Scalable
Meta-Evaluation of LLMs as Evaluators via Agent Debate [74.06294042304415]
エージェント・ディベート支援型メタ評価フレームワークであるScaleEvalを提案する。
フレームワークのコードをGitHubで公開しています。
論文 参考訳(メタデータ) (2024-01-30T07:03:32Z) - PRE: A Peer Review Based Large Language Model Evaluator [15.647772081061987]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Lost in the Source Language: How Large Language Models Evaluate the
Quality of Machine Translation [68.43666295024714]
大規模言語モデル (LLM) は機械翻訳評価タスクにおいて顕著な成果を上げている。
本研究は,LLMが翻訳評価においてソース情報と参照情報をどのように活用するかを検討することを目的とする。
論文 参考訳(メタデータ) (2024-01-12T13:23:21Z) - Benchmarking Generation and Evaluation Capabilities of Large Language
Models for Instruction Controllable Summarization [136.18825814573208]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。