論文の概要: Evaluating LLMs at Detecting Errors in LLM Responses
- arxiv url: http://arxiv.org/abs/2404.03602v1
- Date: Thu, 4 Apr 2024 17:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 14:02:35.698891
- Title: Evaluating LLMs at Detecting Errors in LLM Responses
- Title(参考訳): LLM応答における誤差検出のためのLLMの評価
- Authors: Ryo Kamoi, Sarkar Snigdha Sarathi Das, Renze Lou, Jihyun Janice Ahn, Yilun Zhao, Xiaoxin Lu, Nan Zhang, Yusen Zhang, Ranran Haoran Zhang, Sujeeth Reddy Vummanthala, Salika Dave, Shaobo Qin, Arman Cohan, Wenpeng Yin, Rui Zhang,
- Abstract要約: この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。
我々はReaLMistakeを用いて12の大規模言語モデルに基づいて誤り検出を行う。
- 参考スコア(独自算出の注目度): 30.645694514606507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With Large Language Models (LLMs) being widely used across various tasks, detecting errors in their responses is increasingly crucial. However, little research has been conducted on error detection of LLM responses. Collecting error annotations on LLM responses is challenging due to the subjective nature of many NLP tasks, and thus previous research focuses on tasks of little practical value (e.g., word sorting) or limited error types (e.g., faithfulness in summarization). This work introduces ReaLMistake, the first error detection benchmark consisting of objective, realistic, and diverse errors made by LLMs. ReaLMistake contains three challenging and meaningful tasks that introduce objectively assessable errors in four categories (reasoning correctness, instruction-following, context-faithfulness, and parameterized knowledge), eliciting naturally observed and diverse errors in responses of GPT-4 and Llama 2 70B annotated by experts. We use ReaLMistake to evaluate error detectors based on 12 LLMs. Our findings show: 1) Top LLMs like GPT-4 and Claude 3 detect errors made by LLMs at very low recall, and all LLM-based error detectors perform much worse than humans. 2) Explanations by LLM-based error detectors lack reliability. 3) LLMs-based error detection is sensitive to small changes in prompts but remains challenging to improve. 4) Popular approaches to improving LLMs, including self-consistency and majority vote, do not improve the error detection performance. Our benchmark and code are provided at https://github.com/psunlpgroup/ReaLMistake.
- Abstract(参考訳): 大きな言語モデル(LLM)が様々なタスクで広く使われているため、その応答におけるエラーの検出はますます重要になっている。
しかし,LSM応答の誤り検出についてはほとんど研究されていない。
LLM応答に対するエラーアノテーションの収集は、多くのNLPタスクの主観的な性質のため困難であり、これまでの研究では、実用的価値の少ないタスク(例えば、単語ソート)や限られたエラータイプ(例えば、要約における忠実さ)に焦点を当てていた。
この研究は、LLMによる客観的、現実的で多様なエラーからなる最初のエラー検出ベンチマークであるReaLMistakeを紹介した。
ReaLMistakeは、4つのカテゴリで客観的に評価可能なエラー(正当性、命令追従性、文脈忠実性、パラメータ化知識)を導入し、専門家によって注釈されたGPT-4とLlama 270Bの応答において自然に観察され多様なエラーを誘発する、困難で有意義な3つのタスクを含んでいる。
我々はReaLMistakeを用いて12個のLDMに基づいて誤差検出を行う。
私たちの発見は以下のとおりです。
1) GPT-4 や Claude 3 のような最上位の LLM は LLM のエラーを極めて少ないリコールで検出し、全ての LLM ベースのエラー検出器は人間よりもはるかにひどい性能を発揮する。
2)LLMに基づく誤り検出装置による説明は信頼性に欠ける。
3) LLMによる誤り検出は, プロンプトの小さな変化に敏感であるが, 改善は困難である。
4) 自己整合性や多数決を含むLCMの改善に対する一般的なアプローチは, エラー検出性能を向上しない。
ベンチマークとコードはhttps://github.com/psunlpgroup/ReaLMistake.comで公開されています。
関連論文リスト
- Fact-and-Reflection (FaR) Improves Confidence Calibration of Large
Language Models [89.20169610517381]
ファクト・アンド・リフレクション(FaR)プロンプトを提案し,LLMキャリブレーションを2ステップで改善する。
実験の結果、FaRはキャリブレーションが大幅に向上し、期待される誤差を23.5%下げた。
FaRは、信頼性の低いシナリオにおいて、言語的に関心を表現できる能力さえも持っています。
論文 参考訳(メタデータ) (2024-02-27T01:37:23Z) - Re-Ex: Revising after Explanation Reduces the Factual Errors in LLM
Responses [10.549804002910385]
本稿では,LLM生成テキストの修正手法であるRe-Exを提案する。
Re-Exは、複数のベンチマークでより少ない時間と少ないトークンで、より良いリビジョンパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-02-27T00:22:18Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task
Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。
また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。
その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-03T08:06:35Z) - Learning From Mistakes Makes LLM Better Reasoner [106.48571828587728]
大規模言語モデル(LLM)は、最近数学の問題を解く際、顕著な推論能力を示した。
この研究は、LLMが人間の学習プロセスに似たMistAkes(LEMA)から学習できるかどうかを探求する。
論文 参考訳(メタデータ) (2023-10-31T17:52:22Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Automatic Hallucination Assessment for Aligned Large Language Models via
Transferable Adversarial Attacks [98.22864957942821]
本稿では,大規模言語モデルが忠実に振る舞う既存データを適切に修正し,評価データを自動的に生成する手法を開発することを目的とする。
具体的には,LLM ベースのフレームワークである Auto Debug について述べる。
実験結果から, LLMは, インプロンプトに与えられた知識とパラメトリック知識との間に矛盾がある場合, 質問応答シナリオの2つのカテゴリに幻覚を与える可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Quantifying Uncertainty in Answers from any Language Model and Enhancing
their Trustworthiness [16.35655151252159]
本稿では,事前訓練された大規模言語モデルから悪い,投機的な回答を検出するBSDetectorを紹介する。
我々の不確実性定量化技術は,ブラックボックスAPIを通じてのみアクセス可能な LLM に対して有効である。
論文 参考訳(メタデータ) (2023-08-30T17:53:25Z) - ReviewerGPT? An Exploratory Study on Using Large Language Models for
Paper Reviewing [37.172078596855656]
大規模言語モデル(LLM)の3つの課題について検討する。
13の短いコンピュータサイエンス論文をそれぞれ意図的に挿入した誤りで作成し、LSMにこれらの論文の正しさを確認するよう依頼する。
119のチェックリストの質問、紙のペア、LLMの精度は86.6%であることがわかった。
論文 参考訳(メタデータ) (2023-06-01T12:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。