論文の概要: ALLURE: A Systematic Protocol for Auditing and Improving LLM-based
Evaluation of Text using Iterative In-Context-Learning
- arxiv url: http://arxiv.org/abs/2309.13701v1
- Date: Sun, 24 Sep 2023 17:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 18:03:03.435173
- Title: ALLURE: A Systematic Protocol for Auditing and Improving LLM-based
Evaluation of Text using Iterative In-Context-Learning
- Title(参考訳): ALLURE:反復的インテクスト学習を用いたLLMによるテキストの評価と改善のための体系的プロトコル
- Authors: Hosein Hasanbeig and Hiteshi Sharma and Leo Betthauser and Felipe
Vieira Frujeri and Ida Momennejad
- Abstract要約: ALLUREは、大規模言語モデルを理解するための体系的なアプローチである。
我々は,評価器LLMの性能を向上し,究極的には評価プロセスにおける人間のアノテータへの依存を減らすことを目的としている。
- 参考スコア(独自算出の注目度): 7.457517083017178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: From grading papers to summarizing medical documents, large language models
(LLMs) are evermore used for evaluation of text generated by humans and AI
alike. However, despite their extensive utility, LLMs exhibit distinct failure
modes, necessitating a thorough audit and improvement of their text evaluation
capabilities. Here we introduce ALLURE, a systematic approach to Auditing Large
Language Models Understanding and Reasoning Errors. ALLURE involves comparing
LLM-generated evaluations with annotated data, and iteratively incorporating
instances of significant deviation into the evaluator, which leverages
in-context learning (ICL) to enhance and improve robust evaluation of text by
LLMs. Through this iterative process, we aim to refine the performance of the
evaluator LLM, ultimately reducing the reliance on human annotators in the
evaluation process. We anticipate ALLURE to serve diverse applications of LLMs
in various domains related to evaluation of textual data and productivity in
these fields.
- Abstract(参考訳): 論文の分類から医学文書の要約に至るまで、人間やAIが生成するテキストの評価には、大型言語モデル(LLM)が使用される。
しかし、LLMは広範な実用性にもかかわらず、個別の障害モードを示し、徹底的な監査とテキスト評価機能の改善が必要である。
ここでは,大規模言語モデルの理解と推論の誤りを監査するための体系的アプローチであるallureを紹介する。
ALLUREは、LCM生成した評価を注釈付きデータと比較し、ICL(In-context Learning)を活用してLCMによるテキストの堅牢な評価を強化し改善する評価器に、重要な偏差の事例を反復的に組み込む。
この反復的なプロセスを通じて評価器llmの性能を洗練し、最終的に評価プロセスにおける人間の注釈への依存を減らすことを目指している。
これらの分野におけるテキストデータの評価と生産性に関する様々な分野におけるLCMの多様な応用を期待する。
関連論文リスト
- Think Together and Work Better: Combining Humans' and LLMs' Think-Aloud Outcomes for Effective Text Evaluation [2.5398014196797605]
本研究では,人間の専門知識とLarge Language Models(LLM)を統合するフレームワークであるtextbfInteractEvalを紹介する。
このフレームワークはThink-Aloud(TA)メソッドを使用して、チェックリストベースのテキスト評価の属性を生成する。
論文 参考訳(メタデータ) (2024-09-11T15:40:07Z) - CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。
評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。
コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-07-15T07:43:55Z) - A Better LLM Evaluator for Text Generation: The Impact of Prompt Output Sequencing and Optimization [17.38671584773247]
本研究では,大規模言語モデル(LLM)を用いたテキスト評価の迅速設計について検討する。
結果,理由と得点の順序がLLMの得点に大きく影響していることが判明した。
追加の最適化は、十分なデータが利用可能であればアライメントアライメントを強化する可能性がある。
論文 参考訳(メタデータ) (2024-06-14T12:31:44Z) - Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。