論文の概要: Relying on the Unreliable: The Impact of Language Models' Reluctance to
Express Uncertainty
- arxiv url: http://arxiv.org/abs/2401.06730v1
- Date: Fri, 12 Jan 2024 18:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 18:47:11.646450
- Title: Relying on the Unreliable: The Impact of Language Models' Reluctance to
Express Uncertainty
- Title(参考訳): 信頼できないこと:言語モデルが不確実性表現に与える影響
- Authors: Kaitlyn Zhou, Jena D. Hwang, Xiang Ren, Maarten Sap
- Abstract要約: 誤応答しても,不確かさを表現できないことが判明した。
我々は、人間の実験を行うことで、LM過信のリスクを検証し、ユーザがLM世代に大きく依存していることを示します。
最後に、RLHFアライメントで使用される嗜好注釈付きデータセットを調査し、不確実性のあるテキストに対して人間が偏見を持っていることを確認する。
- 参考スコア(独自算出の注目度): 58.26600585770745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As natural language becomes the default interface for human-AI interaction,
there is a critical need for LMs to appropriately communicate uncertainties in
downstream applications. In this work, we investigate how LMs incorporate
confidence about their responses via natural language and how downstream users
behave in response to LM-articulated uncertainties. We examine publicly
deployed models and find that LMs are unable to express uncertainties when
answering questions even when they produce incorrect responses. LMs can be
explicitly prompted to express confidences, but tend to be overconfident,
resulting in high error rates (on average 47%) among confident responses. We
test the risks of LM overconfidence by running human experiments and show that
users rely heavily on LM generations, whether or not they are marked by
certainty. Lastly, we investigate the preference-annotated datasets used in
RLHF alignment and find that humans have a bias against texts with uncertainty.
Our work highlights a new set of safety harms facing human-LM interactions and
proposes design recommendations and mitigating strategies moving forward.
- Abstract(参考訳): 自然言語が人間のAIインタラクションのデフォルトインターフェースになるにつれて、下流アプリケーションで不確実性を適切に伝達するLMが不可欠である。
本研究では, 自然言語による応答に対する自信と, LMを用いた不確実性に対する下流ユーザの行動について検討する。
一般に展開されたモデルについて検討し,不適切な応答を発生しても疑問に答える場合,LMは不確かさを表現できないことを発見した。
LMは明示的に自信を表現するよう促すことができるが、自信過剰な傾向があり、自信のある反応の中で高いエラー率(平均47%)をもたらす。
我々は,人間実験を行うことで,自信過剰のリスクを検証し,ユーザが確実にマークされているかどうかに関わらず,lm世代に大きく依存していることを示す。
最後に、RLHFアライメントで使用される嗜好注釈付きデータセットを調査し、不確実性のあるテキストに対して人間が偏見を持っていることを確認する。
我々の研究は、人間とLMの相互作用に直面する新たな安全上の障害を強調し、今後の設計勧告と緩和戦略を提案する。
関連論文リスト
- Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Rel-A.I.: An Interaction-Centered Approach To Measuring Human-LM Reliance [73.19687314438133]
インタラクションの文脈的特徴が依存に与える影響について検討する。
文脈特性が人間の信頼行動に大きく影響していることが判明した。
これらの結果から,キャリブレーションと言語品質だけでは人間とLMの相互作用のリスクを評価するには不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-07-10T18:00:05Z) - Self-Recognition in Language Models [10.649471089216489]
モデル生成型「セキュリティ問題」を用いたLMの自己認識評価手法を提案する。
現在公開されている最も有能なオープンソースかつクローズドなLMのうち10つにおいて、私たちのテストを使って自己認識を検証しています。
我々の結果は、一組の代替案が与えられた場合、LMはその起源に関係なく「ベスト」な答えを選択しようとすることを示唆している。
論文 参考訳(メタデータ) (2024-07-09T15:23:28Z) - Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words? [21.814007454504978]
大規模言語モデル(LLM)は,自然言語における本質的な不確実性を表現できることが示唆された。
我々は、モデル固有のアサーションに対する信頼のギャップと、それらが伝達される決定性に基づいて、忠実な応答の不確実性を定式化する。
論文 参考訳(メタデータ) (2024-05-27T07:56:23Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake
Analysis [127.85293480405082]
大規模言語モデル(LLM)の急速な開発は、多くの機会を提供するだけでなく、重要な課題も提示している。
既存のアライメント手法は、人間による注釈付き、欠陥のない命令応答ペアを利用することで、LLMを好ましい結果に導くのが一般的である。
本研究は誤り解析に基づく新しいアライメント手法を提案する。ミスの原因と回避方法を学習するために,LLMを誤った内容に故意に公開する手法である。
論文 参考訳(メタデータ) (2023-10-16T14:59:10Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - LM vs LM: Detecting Factual Errors via Cross Examination [22.50837561382647]
言語モデル(LM)の事実性評価フレームワークを提案する。
私たちのキーとなる考え方は、間違ったクレームがモデルが生成する他のクレームと矛盾する可能性があるということです。
我々は,最近の複数のLMが4つのベンチマークで行った事実的主張に対して,本手法を実証的に評価した。
論文 参考訳(メタデータ) (2023-05-22T17:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。