論文の概要: Do LLMs Know When to NOT Answer? Investigating Abstention Abilities of Large Language Models
- arxiv url: http://arxiv.org/abs/2407.16221v1
- Date: Tue, 23 Jul 2024 06:56:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 18:25:52.795088
- Title: Do LLMs Know When to NOT Answer? Investigating Abstention Abilities of Large Language Models
- Title(参考訳): LLMはいつ答えないのか? : 大規模言語モデルの留意点の検討
- Authors: Nishanth Madhusudhan, Sathwik Tejaswi Madhusudhan, Vikas Yadav, Masoud Hashemi,
- Abstract要約: 無視能力 (Abstention Aabilities, AA) とは、大きな言語モデル(LLM)が、不確実な場合や確定的な回答ができない場合の回答を控える能力である。
そこで本研究では,多目的QAタスクにおけるLCMのAAを検証し,理解するためのブラックボックス評価手法を提案する。
以上の結果から, GPT-4のような最先端のLCMでさえ, 棄権に苦しむ一方で, 戦略的なプロンプトは, この能力を著しく向上させる可能性が示唆された。
- 参考スコア(独自算出の注目度): 4.377568983107492
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) achieve remarkable performance across various NLP tasks, their reliability becomes essential for widespread adoption. This paper focuses on Abstention Ability (AA), a critical yet under explored aspect of reliability - the ability of LLMs to refrain from answering questions when they are uncertain or when definitive answer is not possible, while maintaining question-answering (QA) task performance. While previous works have focused on understanding the recollection abilities of LLMs or their ability to identify imponderable/unanswerable questions, we believe there is a need for an effective AA evaluation method. Therefore, we propose a black-box evaluation methodology to examine and understand the AA of LLMs across a variety of multiple-choice QA tasks. We measure AA by rewarding models for abstaining from answering when their predictions are incorrect or when the questions are inherently unanswerable. We investigate three strategies, Strict Prompting, Verbal Confidence Thresholding, and Chain-of-Thought (CoT), to understand their impact on abstention across different LLMs. Our findings reveal that while even state-of-the-art LLMs like GPT-4 struggle with abstention, strategic prompting such as CoT, can significantly enhance this ability. Furthermore, we demonstrate that improving AA also leads to better overall QA task performance, underscoring the importance of evaluating AA in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なNLPタスクで顕著なパフォーマンスを達成するため、その信頼性は広く採用するために欠かせないものとなる。
本稿では,質問応答(QA)タスクのパフォーマンスを維持しつつ,不確かさや確定回答が不可能な場合に,LLMが質問に対する回答を控える能力について述べる。
従来の研究は, LLMの再現能力や, 疑わしい, 疑わしい質問を識別する能力の理解に重点を置いてきたが, 効果的なAA評価手法の必要性が示唆されている。
そこで本研究では,多目的QAタスクにおけるLCMのAAを検証し,理解するためのブラックボックス評価手法を提案する。
予測が誤りであったり、質問が本質的に解決不可能であったりした場合に、AAが回答しないようモデルに報いることにより、AAを測定する。
我々は,3つの戦略,Strict Prompting,Verbal Confidence Thresholding,Chain-of-Thought(CoT)について検討し,異なるLLMにおける禁忌に対する影響を明らかにする。
以上の結果から,GPT-4 のような最先端の LLM であっても,CoT などの戦略的なプロンプトは,この能力を著しく向上させることができることが示唆された。
さらに,AAの改善がQAタスクの全般的パフォーマンスの向上につながることも示し,LLMにおけるAAを評価することの重要性を強調した。
関連論文リスト
- Unc-TTP: A Method for Classifying LLM Uncertainty to Improve In-Context Example Selection [6.813733517894384]
大規模言語モデル(LLM)は、様々な下流タスクで例外的なパフォーマンスを示している。
ユーザにとって、応答が確実に生成されるか、あるいはユーザの期待に応えて作られているかを判断することは困難である。
本稿では,LLMの不確かさを分類するために,新しい不確実性三部テストパラダイム (Uncertainty Tripartite Testing Paradigm: Unc-TTP) を提案する。
論文 参考訳(メタデータ) (2024-08-17T11:33:23Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Think Twice Before Trusting: Self-Detection for Large Language Models through Comprehensive Answer Reflection [90.71323430635593]
本稿では, LLM生成解を超える包括的解答空間を考察した, 新たな自己検出パラダイムを提案する。
このパラダイムに基づいて、2段階のフレームワークを導入し、まずまずLLMに各候補の回答を反映し、正当化するように指示する。
このフレームワークは、優れた自己検出のための既存のアプローチとシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-15T02:38:26Z) - CFMatch: Aligning Automated Answer Equivalence Evaluation with Expert Judgments For Open-Domain Question Answering [14.366087533102656]
質問応答(QA)は、答えが正しいかどうかを知る場合にのみ進行する。
回答等価性(AE)を決定するための現在の評価基準は、しばしば人間の判断と一致しない。
論文 参考訳(メタデータ) (2024-01-24T01:30:25Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Uncertainty-Driven Action Quality Assessment [67.20617610820857]
本稿では,複数の判定スコアの多様性を捉えるために,不確実性駆動型AQA (UD-AQA) という新しい確率モデルを提案する。
我々は,AQA回帰損失の再重み付けに使用される各予測の不確かさを推定する。
提案手法は,オリンピックイベントMTL-AQAとFineDivingの3つのベンチマークと,手術スキルJIGSAWSデータセットの3つのベンチマークで比較結果を得た。
論文 参考訳(メタデータ) (2022-07-29T07:21:15Z) - A new interpretable unsupervised anomaly detection method based on
residual explanation [47.187609203210705]
本稿では,大規模システムにおけるAEベースのADの制限に対処する新しい解釈可能性手法であるRXPを提案する。
実装の単純さ、計算コストの低さ、決定論的振る舞いが特徴である。
実鉄道路線のデータを用いた実験において,提案手法はSHAPよりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-03-14T15:35:45Z) - Active Feature Acquisition with Generative Surrogate Models [11.655069211977464]
本研究では,アクティブ機能獲得(AFA)を行うモデルについて検討し,未観測機能に対する環境問合せを行う。
我々の研究は、AFA問題を生成的モデリングタスクとして根底にあるマルコフ決定プロセス(MDP)を再構築する。
本稿では,入力特徴間の依存関係を捕捉し,取得から得られる潜在的な情報を評価する生成代理モデル(GSM)の学習を提案する。
論文 参考訳(メタデータ) (2020-10-06T02:10:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。