論文の概要: Prudent Silence or Foolish Babble? Examining Large Language Models'
Responses to the Unknown
- arxiv url: http://arxiv.org/abs/2311.09731v1
- Date: Thu, 16 Nov 2023 10:02:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 15:23:15.901005
- Title: Prudent Silence or Foolish Babble? Examining Large Language Models'
Responses to the Unknown
- Title(参考訳): うるさい沈黙か 愚かなバブルか?
未知言語に対する大規模言語モデルの応答の検討
- Authors: Genglin Liu, Xingyao Wang, Lifan Yuan, Yangyi Chen, Hao Peng
- Abstract要約: 大規模言語モデル(LLM)は、感覚的な応答を生成するための前提知識が欠如している状況に直面している場合が多い。
この行動は人間の会話規範と誤解し、責任と倫理的AI開発を取り巻く課題を提示する。
- 参考スコア(独自算出の注目度): 35.067234242461545
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) often struggle when faced with situations where
they lack the prerequisite knowledge to generate a sensical response. In these
cases, models tend to fabricate and hallucinate, rather than appropriately
signaling uncertainty as humans would. This behavior misaligns with human
conversational norms and presents challenges surrounding responsible and
ethical AI development. This work aims to systematically investigate LLMs'
behaviors in such situations. We curate an adversarial question-answering
benchmark containing unanswerable questions targeting information absent from
the LLM's training data. Concretely, these unanswerable questions contain
non-existent concepts or false premises. When presented with such unanswerable
questions, an LLM should appropriately convey uncertainty, and be able to
challenge the premise and refuse to generate a response. While facing
answerable valid questions, a model should demonstrate a positive correlation
between accuracy and confidence. Using a model-agnostic unified confidence
elicitation approach, we observe that LLMs that have gone through instruction
finetuning and reinforcement learning from human feedback (RLHF) perform
significantly better than their counterparts that do not. Moreover, uncertainty
expression 1 through our elicitation method does not always stay consistent
with the perceived confidence of the direct response of an LLM. Our findings
call for further research into teaching LLMs to proactively and reliably
express uncertainty.
- Abstract(参考訳): 大規模言語モデル(llm)は、センシカルな応答を生成するための前提知識が欠如している状況に直面した場合、しばしば苦労する。
これらの場合、モデルは人間のように不確実性を適切に信号するよりも、生成し幻覚する傾向がある。
この行動は人間の会話規範と誤解し、責任と倫理的AI開発を取り巻く課題を示す。
本研究は,このような状況下でのLSMの挙動を体系的に調査することを目的とする。
LLMのトレーニングデータから欠落した情報を対象とした,回答不能な質問を含む逆質問回答ベンチマークをキュレートする。
具体的には、これらの疑問には存在しない概念や偽の前提が含まれている。
そのような不可解な質問を提示する場合、llmは不確実性を適切に伝達し、前提に挑戦し、応答を拒否するべきである。
有効な質問に直面する一方で、モデルは精度と信頼性の正の相関を示すべきである。
モデルに依存しない統一的信頼評価手法を用いて、人間のフィードバック(RLHF)からの指導微調整と強化学習を経たLLMは、そうでないものよりもはるかに優れた性能を示す。
また,本手法による不確実性表現1は,LLMの直接応答に対する信頼感と必ずしも一致しない。
我々の研究は、LSMに不確実性を積極的に確実に表現するよう、さらなる研究を求めるものである。
関連論文リスト
- MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty [10.154013836043816]
我々は,世界知識,数学的推論,コモンセンス推論タスクからなるMulti-Answer Question Answering データセット MAQA を提案する。
その結果,データ不確実性の下でも,エントロピーと一貫性に基づく手法がモデルの不確実性をよく推定できることが示唆された。
我々は、我々の観察が、現実的な環境での不確実性定量化に関する今後の研究の道を開くと信じている。
論文 参考訳(メタデータ) (2024-08-13T11:17:31Z) - To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。
実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文 参考訳(メタデータ) (2024-07-24T09:48:48Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations [63.330182403615886]
大きな言語モデル(LLM)の実践的デプロイに対する大きな障壁は、信頼性の欠如である。
このことが特に顕著な3つの状況は、正しさ、未解決の質問に対する幻覚、安全性である。
人間のように、不確実性を理解する能力があるため、私たちが知らない質問への答えを控えるべきです。
論文 参考訳(メタデータ) (2024-04-16T23:56:38Z) - Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。
両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。
提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文 参考訳(メタデータ) (2024-02-15T18:46:24Z) - Benchmarking LLMs via Uncertainty Quantification [91.72588235407379]
オープンソースのLarge Language Models(LLM)の普及は、包括的な評価方法の緊急の必要性を強調している。
我々は不確実性定量化を統合した LLM のための新しいベンチマーク手法を提案する。
以上の結果より, 精度の高いLSMでは, 精度が低下する可能性があり, II) より大規模なLSMでは, より小型のLSMに比べて不確実性が高いこと, III) 命令ファインタニングではLCMの不確実性が高くなる傾向が示唆された。
論文 参考訳(メタデータ) (2024-01-23T14:29:17Z) - RECALL: A Benchmark for LLMs Robustness against External Counterfactual
Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。
本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-11-14T13:24:19Z) - Quantifying Uncertainty in Natural Language Explanations of Large
Language Models [29.34960984639281]
大規模言語モデル (LLM) は、高スループット自然言語処理 (NLP) アプリケーションのための強力なツールとして、ますます使われている。
生成された説明の不確かさを定量化するために、$textitVerbalized Uncertainty$と$textitProbing Uncertainty$という2つの新しいメトリクスを提案します。
ベンチマークデータセットの実証分析により、言語化された不確実性は説明の信頼性の信頼できる見積りではないことが判明した。
論文 参考訳(メタデータ) (2023-11-06T21:14:40Z) - Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism [0.0]
大規模言語モデル(LLM)は印象的な言語理解と生成能力を示している。
これらのモデルは欠陥がなく、しばしばエラーや誤報を含む応答を生成する。
本稿では,LLMに対して,誤りを避けるために,難解な質問への回答を拒否するように指示する拒絶機構を提案する。
論文 参考訳(メタデータ) (2023-11-02T07:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。