Fugu-MT 論文翻訳(概要): ALLURE: Auditing and Improving LLM-based Evaluation of Text using Iterative In-Context-Learning

論文の概要: ALLURE: Auditing and Improving LLM-based Evaluation of Text using Iterative In-Context-Learning

arxiv url: http://arxiv.org/abs/2309.13701v2
Date: Wed, 27 Sep 2023 00:26:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-28 10:22:23.921490
Title: ALLURE: Auditing and Improving LLM-based Evaluation of Text using Iterative In-Context-Learning
Title（参考訳）: ALLURE:反復的インテクスト学習によるLLMによるテキストの評価と改善
Authors: Hosein Hasanbeig and Hiteshi Sharma and Leo Betthauser and Felipe Vieira Frujeri and Ida Momennejad
Abstract要約: 大規模言語モデル(LLM)は、人間やAIが生成するテキストの評価に使用される。実用性にもかかわらず、LSMは異なる障害モードを示し、徹底的な監査とテキスト評価機能の改善が必要である。ここでは、大規模な言語モデルを理解するための体系的なアプローチであるALLUREを紹介します。
参考スコア（独自算出の注目度）: 7.457517083017178
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: From grading papers to summarizing medical documents, large language models (LLMs) are evermore used for evaluation of text generated by humans and AI alike. However, despite their extensive utility, LLMs exhibit distinct failure modes, necessitating a thorough audit and improvement of their text evaluation capabilities. Here we introduce ALLURE, a systematic approach to Auditing Large Language Models Understanding and Reasoning Errors. ALLURE involves comparing LLM-generated evaluations with annotated data, and iteratively incorporating instances of significant deviation into the evaluator, which leverages in-context learning (ICL) to enhance and improve robust evaluation of text by LLMs. Through this iterative process, we refine the performance of the evaluator LLM, ultimately reducing reliance on human annotators in the evaluation process. We anticipate ALLURE to serve diverse applications of LLMs in various domains related to evaluation of textual data, such as medical summarization, education, and and productivity.
Abstract（参考訳）: 論文の分類から医学文書の要約に至るまで、人間やAIが生成するテキストの評価には、大型言語モデル(LLM)が使用される。しかし、LLMは広範な実用性にもかかわらず、個別の障害モードを示し、徹底的な監査とテキスト評価機能の改善が必要である。ここでは,大規模言語モデルの理解と推論の誤りを監査するための体系的アプローチであるallureを紹介する。 ALLUREは、LCM生成した評価を注釈付きデータと比較し、ICL(In-context Learning)を活用してLCMによるテキストの堅牢な評価を強化し改善する評価器に、重要な偏差の事例を反復的に組み込む。この反復的プロセスにより、評価器LLMの性能を改良し、最終的に評価プロセスにおける人間のアノテータへの依存を減らす。我々は,医学的な要約,教育,生産性など,テキストデータの評価に関連する分野におけるLCMの多様な応用を期待する。

関連論文リスト

Think Together and Work Better: Combining Humans' and LLMs' Think-Aloud Outcomes for Effective Text Evaluation [2.5398014196797605]
本研究では,人間の専門知識とLarge Language Models(LLM)を統合するフレームワークであるtextbfInteractEvalを紹介する。このフレームワークはThink-Aloud(TA)メソッドを使用して、チェックリストベースのテキスト評価の属性を生成する。
論文参考訳（メタデータ） (2024-09-11T15:40:07Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
A Better LLM Evaluator for Text Generation: The Impact of Prompt Output Sequencing and Optimization [17.38671584773247]
本研究では,大規模言語モデル(LLM)を用いたテキスト評価の迅速設計について検討する。結果,理由と得点の順序がLLMの得点に大きく影響していることが判明した。追加の最適化は、十分なデータが利用可能であればアライメントアライメントを強化する可能性がある。
論文参考訳（メタデータ） (2024-06-14T12:31:44Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文参考訳（メタデータ） (2024-04-30T13:50:55Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。