論文の概要: Evaluating LLMs at Detecting Errors in LLM Responses
- arxiv url: http://arxiv.org/abs/2404.03602v1
- Date: Thu, 4 Apr 2024 17:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:02:35.698891
- Title: Evaluating LLMs at Detecting Errors in LLM Responses
- Title(参考訳): LLM応答における誤差検出のためのLLMの評価
- Authors: Ryo Kamoi, Sarkar Snigdha Sarathi Das, Renze Lou, Jihyun Janice Ahn, Yilun Zhao, Xiaoxin Lu, Nan Zhang, Yusen Zhang, Ranran Haoran Zhang, Sujeeth Reddy Vummanthala, Salika Dave, Shaobo Qin, Arman Cohan, Wenpeng Yin, Rui Zhang,
- Abstract要約: この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。
我々はReaLMistakeを用いて12の大規模言語モデルに基づいて誤り検出を行う。
- 参考スコア(独自算出の注目度): 30.645694514606507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With Large Language Models (LLMs) being widely used across various tasks, detecting errors in their responses is increasingly crucial. However, little research has been conducted on error detection of LLM responses. Collecting error annotations on LLM responses is challenging due to the subjective nature of many NLP tasks, and thus previous research focuses on tasks of little practical value (e.g., word sorting) or limited error types (e.g., faithfulness in summarization). This work introduces ReaLMistake, the first error detection benchmark consisting of objective, realistic, and diverse errors made by LLMs. ReaLMistake contains three challenging and meaningful tasks that introduce objectively assessable errors in four categories (reasoning correctness, instruction-following, context-faithfulness, and parameterized knowledge), eliciting naturally observed and diverse errors in responses of GPT-4 and Llama 2 70B annotated by experts. We use ReaLMistake to evaluate error detectors based on 12 LLMs. Our findings show: 1) Top LLMs like GPT-4 and Claude 3 detect errors made by LLMs at very low recall, and all LLM-based error detectors perform much worse than humans. 2) Explanations by LLM-based error detectors lack reliability. 3) LLMs-based error detection is sensitive to small changes in prompts but remains challenging to improve. 4) Popular approaches to improving LLMs, including self-consistency and majority vote, do not improve the error detection performance. Our benchmark and code are provided at https://github.com/psunlpgroup/ReaLMistake.
- Abstract(参考訳): 大きな言語モデル(LLM)が様々なタスクで広く使われているため、その応答におけるエラーの検出はますます重要になっている。
しかし,LSM応答の誤り検出についてはほとんど研究されていない。
LLM応答に対するエラーアノテーションの収集は、多くのNLPタスクの主観的な性質のため困難であり、これまでの研究では、実用的価値の少ないタスク(例えば、単語ソート)や限られたエラータイプ(例えば、要約における忠実さ)に焦点を当てていた。
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。
ReaLMistakeは、4つのカテゴリで客観的に評価可能なエラー(正当性、命令追従性、文脈忠実性、パラメータ化知識)を導入し、専門家によって注釈されたGPT-4とLlama 270Bの応答において自然に観察され多様なエラーを誘発する、困難で有意義な3つのタスクを含んでいる。
我々はReaLMistakeを用いて12個のLDMに基づいて誤差検出を行う。
私たちの発見は以下のとおりです。
1) GPT-4 や Claude 3 のような最上位の LLM は LLM のエラーを極めて少ないリコールで検出し、全ての LLM ベースのエラー検出器は人間よりもはるかにひどい性能を発揮する。
2)LLMに基づく誤り検出装置による説明は信頼性に欠ける。
3) LLMによる誤り検出は, プロンプトの小さな変化に敏感であるが, 改善は困難である。
4) 自己整合性や多数決を含むLCMの改善に対する一般的なアプローチは, エラー検出性能を向上しない。
ベンチマークとコードはhttps://github.com/psunlpgroup/ReaLMistake.comで公開されています。
関連論文リスト
- SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。
もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。
SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文 参考訳(メタデータ) (2024-11-20T18:56:22Z) - Revealing the Challenge of Detecting Character Knowledge Errors in LLM Role-Playing [14.950721395944388]
本稿では,KKE と UKE の誤り検出能力を評価するための探索データセットを提案する。
その結果、最新のLSMでさえこれらの2種類のエラーを効果的に検出するのに苦労していることが示唆された。
本稿では,エージェントによる推論手法であるSelf-RecollectionとSelf-Doubtを提案する。
論文 参考訳(メタデータ) (2024-09-18T06:21:44Z) - Fixing Code Generation Errors for Large Language Models [6.137340149146578]
LLM(Large Language Models)は、ソフトウェア開発のためのソースコードを自動生成するように設計されている。
LLMの生成したコードは、しばしばテストケースをパスせず、エラーを修正するためにかなりの人的努力を必要とする。
LlmFixと呼ばれる3種類のエラーを3段階のプロセスで処理する手法を提案する。
論文 参考訳(メタデータ) (2024-09-01T09:40:15Z) - See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses [51.975495361024606]
本稿では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。
GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約するように促します。
次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。
論文 参考訳(メタデータ) (2024-08-16T19:01:52Z) - Fact-and-Reflection (FaR) Improves Confidence Calibration of Large Language Models [84.94220787791389]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - LLMRefine: Pinpointing and Refining Large Language Models via Fine-Grained Actionable Feedback [65.84061725174269]
最近の大規模言語モデル(LLM)は、世代品質を改善するために人間のフィードバックを活用している。
LLMの出力を最適化する推論時間最適化手法であるLLMRefineを提案する。
機械翻訳、長文質問応答(QA)、話題要約を含む3つのテキスト生成タスクについて実験を行った。
LLMRefineは、すべてのベースラインアプローチを一貫して上回り、翻訳タスクの1.7 MetricXポイント、ASQAの8.1 ROUGE-L、トピックの要約の2.2 ROUGE-Lの改善を実現している。
論文 参考訳(メタデータ) (2023-11-15T19:52:11Z) - LLMs cannot find reasoning errors, but can correct them given the error location [0.9017736137562115]
低い自己補正性能は、LLMが既知の誤りを訂正する能力ではなく、論理的な誤りを見つけることができないことに起因する。
我々は,そのミスフィリング能力について,最先端のLLMのいくつかをベンチマークし,そのタスクに一般的に苦労していることを示す。
そこで本研究では,地平線ラベルやドメイン内トレーニングデータを使わずに,誤った位置情報を得られることを示す。
論文 参考訳(メタデータ) (2023-11-14T20:12:38Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。