論文の概要: Relying on the Unreliable: The Impact of Language Models' Reluctance to
Express Uncertainty
- arxiv url: http://arxiv.org/abs/2401.06730v1
- Date: Fri, 12 Jan 2024 18:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 18:47:11.646450
- Title: Relying on the Unreliable: The Impact of Language Models' Reluctance to
Express Uncertainty
- Title(参考訳): 信頼できないこと:言語モデルが不確実性表現に与える影響
- Authors: Kaitlyn Zhou, Jena D. Hwang, Xiang Ren, Maarten Sap
- Abstract要約: 誤応答しても,不確かさを表現できないことが判明した。
我々は、人間の実験を行うことで、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。
最後に、RLHFアライメントで使用される嗜好注釈付きデータセットを調査し、不確実性のあるテキストに対して人間が偏見を持っていることを確認する。
- 参考スコア(独自算出の注目度): 58.26600585770745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As natural language becomes the default interface for human-AI interaction,
there is a critical need for LMs to appropriately communicate uncertainties in
downstream applications. In this work, we investigate how LMs incorporate
confidence about their responses via natural language and how downstream users
behave in response to LM-articulated uncertainties. We examine publicly
deployed models and find that LMs are unable to express uncertainties when
answering questions even when they produce incorrect responses. LMs can be
explicitly prompted to express confidences, but tend to be overconfident,
resulting in high error rates (on average 47%) among confident responses. We
test the risks of LM overconfidence by running human experiments and show that
users rely heavily on LM generations, whether or not they are marked by
certainty. Lastly, we investigate the preference-annotated datasets used in
RLHF alignment and find that humans have a bias against texts with uncertainty.
Our work highlights a new set of safety harms facing human-LM interactions and
proposes design recommendations and mitigating strategies moving forward.
- Abstract(参考訳): 自然言語が人間のAIインタラクションのデフォルトインターフェースになるにつれて、下流アプリケーションで不確実性を適切に伝達するLMが不可欠である。
本研究では, 自然言語による応答に対する自信と, LMを用いた不確実性に対する下流ユーザの行動について検討する。
一般に展開されたモデルについて検討し,不適切な応答を発生しても疑問に答える場合,LMは不確かさを表現できないことを発見した。
LMは明示的に自信を表現するよう促すことができるが、自信過剰な傾向があり、自信のある反応の中で高いエラー率(平均47%)をもたらす。
我々は,人間実験を行うことで,自信過剰のリスクを検証し,ユーザが確実にマークされているかどうかに関わらず,lm世代に大きく依存していることを示す。
最後に、RLHFアライメントで使用される嗜好注釈付きデータセットを調査し、不確実性のあるテキストに対して人間が偏見を持っていることを確認する。
我々の研究は、人間とLMの相互作用に直面する新たな安全上の障害を強調し、今後の設計勧告と緩和戦略を提案する。
関連論文リスト
- Fact-Checking the Output of Large Language Models via Token-Level
Uncertainty Quantification [119.38495860737929]
大型言語モデル(LLM)は幻覚、すなわちその出力に誤った主張を生じさせることで有名である。
本稿では,トークンレベルの不確実性定量化に基づくファクトチェックと幻覚検出パイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-07T17:44:17Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [48.18098860396162]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - A Survey of Language Model Confidence Estimation and Calibration [91.86126820036058]
言語モデル(LM)は、様々な領域において幅広いタスクにまたがる顕著な機能を示してきた。
優れたパフォーマンスにもかかわらず、そのアウトプットの信頼性は、AIの安全性の要求に関係があり、疑わしい。
本稿では,LMの信頼度推定と校正のための手法と手法について論じる。
論文 参考訳(メタデータ) (2023-11-14T16:43:29Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Shifting Attention to Relevance: Towards the Uncertainty Estimation of
Large Language Models [28.67546891608135]
大規模言語モデル (LLMs) は, 自然言語生成や命令の追従において, 顕著な可能性を示している。
不確実性定量化(UQ)は有望なソリューションであり、LLMのコンテキスト内での正確な実装は依然として大きなハードルである。
我々は,より関連性の高いコンポーネントへの注意をトークンレベルと文レベルの両方で協調的にシフトし,正確な不確かさを推定する。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - Generating with Confidence: Uncertainty Quantification for Black-box
Large Language Models [42.30291103270481]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られる可能性のある選択的なNLGに適用し、いくつかの信頼/不確実性指標を提案し、比較する。
その結果, セマンティックな分散の簡易な測定基準が, LLM応答の質の信頼性の高い予測因子であることが判明した。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z) - LM vs LM: Detecting Factual Errors via Cross Examination [22.50837561382647]
言語モデル(LM)の事実性評価フレームワークを提案する。
私たちのキーとなる考え方は、間違ったクレームがモデルが生成する他のクレームと矛盾する可能性があるということです。
我々は,最近の複数のLMが4つのベンチマークで行った事実的主張に対して,本手法を実証的に評価した。
論文 参考訳(メタデータ) (2023-05-22T17:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。