論文の概要: Navigating the Grey Area: Expressions of Overconfidence and Uncertainty
in Language Models
- arxiv url: http://arxiv.org/abs/2302.13439v1
- Date: Sun, 26 Feb 2023 23:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 17:09:20.790921
- Title: Navigating the Grey Area: Expressions of Overconfidence and Uncertainty
in Language Models
- Title(参考訳): グレイエリアのナビゲーション:言語モデルにおける過信と不確かさの表現
- Authors: Kaitlyn Zhou, Dan Jurafsky, Tatsunori Hashimoto
- Abstract要約: 我々は、言語モデル(LM)の理解から欠落している重要な次元は、不確実性の表現を解釈し生成するモデルの能力であると主張している。
本研究では,不確かさの表現を解釈できるのか,不確かさの表現を学習中にどのように変化するのかを検討する。
モデルのキャリブレーションは、モデルに不確実性ではなく確実性を生成するように教えるときに発生する。
- 参考スコア(独自算出の注目度): 46.33193966693824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite increasingly fluent, relevant, and coherent language generation,
major gaps remain between how humans and machines use language. We argue that a
key dimension that is missing from our understanding of language models (LMs)
is the model's ability to interpret and generate expressions of uncertainty.
Whether it be the weatherperson announcing a chance of rain or a doctor giving
a diagnosis, information is often not black-and-white and expressions of
uncertainty provide nuance to support human-decision making. The increasing
deployment of LMs in the wild motivates us to investigate whether LMs are
capable of interpreting expressions of uncertainty and how LMs' behaviors
change when learning to emit their own expressions of uncertainty. When
injecting expressions of uncertainty into prompts (e.g., "I think the answer
is..."), we discover that GPT3's generations vary upwards of 80% in accuracy
based on the expression used. We analyze the linguistic characteristics of
these expressions and find a drop in accuracy when naturalistic expressions of
certainty are present. We find similar effects when teaching models to emit
their own expressions of uncertainty, where model calibration suffers when
teaching models to emit certainty rather than uncertainty. Together, these
results highlight the challenges of building LMs that interpret and generate
trustworthy expressions of uncertainty.
- Abstract(参考訳): 流動的で関連性があり、一貫性のある言語生成がますます進んでいるにもかかわらず、人間と機械の言語使用方法には大きなギャップが残っている。
我々は、言語モデル(lms)の理解から欠けている重要な次元は、不確実性の表現を解釈し生成するモデルの能力であると主張する。
雨の機会を知らせる天気予報者であれ、診断を行う医師であれ、情報はしばしば白黒ではなく、不確実性の表現は人為的な判断を支援するニュアンスを提供する。
野生におけるLMの展開の増加は、LMが不確実性の表現を解釈できるかどうか、そして不確実性の表現を出力する学習において、LMの挙動がどのように変化するかを調査する動機となる。
不確実性の表現をプロンプト(例えば「答えは...」)に注入すると、gpt3の世代は使用する表現に基づいて80%以上の精度で変化することが分かる。
これらの表現の言語的特徴を分析し,自然主義的表現が存在する場合の精度の低下を見出す。
モデルキャリブレーションがモデルに不確実性ではなく確実性を与えるように教える際に生じる不確実性の表現をモデルに教える場合、同様の効果を見出す。
これらの結果は、不確実性の信頼できる表現を解釈し生成するlmm構築の課題を浮き彫りにしている。
関連論文リスト
- Belief in the Machine: Investigating Epistemological Blind Spots of Language Models [51.63547465454027]
言語モデル(LM)は、医療、法律、ジャーナリズムといった分野において、信頼できる意思決定に不可欠である。
本研究は,新しいデータセットであるKaBLEを用いて,GPT-4,Claude-3,Llama-3を含む現代のLMの能力を体系的に評価する。
まず、LMは事実シナリオで86%の精度を達成するが、その性能は偽シナリオで著しく低下する。
第二に、特にこれらの信念が事実データと矛盾する場合、LMは個人的信念を認識し、肯定するのに苦労する。
論文 参考訳(メタデータ) (2024-10-28T16:38:20Z) - Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - WellDunn: On the Robustness and Explainability of Language Models and Large Language Models in Identifying Wellness Dimensions [46.60244609728416]
言語モデル (LMs) は, 予後不良のリスクが高まれば, 臨床実習におけるモデルの実用性に対するリトマステストにはならない可能性がある, メンタルヘルスの分野では, 言語モデル (LMs) が提案されている。
ウェルネス次元(WD)の同定におけるLMの堅牢性と説明性に着目した評価設計を提案する。
LM/LLMの4つの驚くべき結果が明らかになった。
論文 参考訳(メタデータ) (2024-06-17T19:50:40Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。
広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。
本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文 参考訳(メタデータ) (2024-04-25T10:03:14Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Explainable Depression Symptom Detection in Social Media [2.677715367737641]
本稿では, トランスフォーマーアーキテクチャを用いて, ユーザの文章中の抑うつ症状マーカーの出現を検知し, 説明する。
我々の自然言語による説明により、臨床医はバリデーションされた症状に基づいてモデルの判断を解釈できる。
論文 参考訳(メタデータ) (2023-10-20T17:05:27Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。