論文の概要: Evaluating Large Language Models for Health-related Queries with
Presuppositions
- arxiv url: http://arxiv.org/abs/2312.08800v1
- Date: Thu, 14 Dec 2023 10:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 22:59:18.769480
- Title: Evaluating Large Language Models for Health-related Queries with
Presuppositions
- Title(参考訳): 前提条件による健康関連クエリのための大規模言語モデルの評価
- Authors: Navreet Kaur and Monojit Choudhury and Danish Pruthi
- Abstract要約: UPHILLは健康関連クエリーからなるデータセットで、予測の度合いは様々である。
InstructGPT, ChatGPT, BingChatモデルの実際の精度と一貫性を評価する。
- 参考スコア(独自算出の注目度): 21.057893486837944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As corporations rush to integrate large language models (LLMs) to their
search offerings, it is critical that they provide factually accurate
information that is robust to any presuppositions that a user may express. In
this work, we introduce UPHILL, a dataset consisting of health-related queries
with varying degrees of presuppositions. Using UPHILL, we evaluate the factual
accuracy and consistency of InstructGPT, ChatGPT, and BingChat models. We find
that while model responses rarely disagree with true health claims (posed as
questions), they often fail to challenge false claims: responses from
InstructGPT agree with 32% of the false claims, ChatGPT 26% and BingChat 23%.
As we increase the extent of presupposition in input queries, the responses
from InstructGPT and ChatGPT agree with the claim considerably more often,
regardless of its veracity. Responses from BingChat, which rely on retrieved
webpages, are not as susceptible. Given the moderate factual accuracy, and the
inability of models to consistently correct false assumptions, our work calls
for a careful assessment of current LLMs for use in high-stakes scenarios.
- Abstract(参考訳): 企業が検索に大規模な言語モデル(llm)を組み込むことを急いでいる中、ユーザが表現できるあらゆる前提条件にロバストな事実的正確な情報を提供することが重要である。
本研究では, 様々な前提条件の健康関連クエリからなるデータセットであるUPHILLを紹介する。
UPHILLを用いて,InstructGPT,ChatGPT,BingChatモデルの実際の精度と一貫性を評価する。
instructgptからの回答は、偽の主張の32%、chatgpt 26%、bingchat 23%と一致しています。
入力クエリの予測範囲を増加させるにつれて,instructgpt と chatgpt からの応答は,その妥当性に関わらず,より頻繁にその主張に一致する。
検索したWebページに依存しているBingChatからの応答は、それほど影響を受けない。
適度な事実の正確さとモデルが誤った仮定を一貫して修正できないことを踏まえ、我々は、高リスクシナリオで使用する現在のllmを慎重に評価することを求める。
関連論文リスト
- SaGE: Evaluating Moral Consistency in Large Language Models [15.079905222871071]
我々は、最先端の大規模言語モデルでさえ、その世代において道徳的に矛盾していることを示す。
モデルの道徳的一貫性を測定するために,セマンティックグラフエントロピー(SaGE)と呼ばれる情報理論尺度を提案する。
論文 参考訳(メタデータ) (2024-02-21T11:23:21Z) - What Evidence Do Language Models Find Convincing? [103.67867531892988]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。
このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。
全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文 参考訳(メタデータ) (2024-02-19T02:15:34Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Evaluating ChatGPT as a Question Answering System: A Comprehensive
Analysis and Comparison with Existing Models [0.0]
本稿では,質問応答システム(QAS)としてのChatGPTについて検討する。
主な焦点は、提供された段落から回答を抽出する際のChatGPTの熟練度を評価することである。
評価では幻覚が強調され、ChatGPTは提供された文脈で回答が得られない質問に対して応答を提供する。
論文 参考訳(メタデータ) (2023-12-11T08:49:18Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Reinforcement Learning-based Counter-Misinformation Response Generation:
A Case Study of COVID-19 Vaccine Misinformation [19.245814221211415]
非熟練の一般ユーザーは、偽情報に対して積極的に対応している。
本研究では、誤情報と反誤情報応答のペアの2つの新しいデータセットを作成する。
我々は,反情報応答を学習する強化学習に基づくフレームワークであるMisinfoCorrectを提案する。
論文 参考訳(メタデータ) (2023-03-11T15:55:01Z) - Dr ChatGPT, tell me what I want to hear: How prompt knowledge impacts
health answer correctness [27.60133652134339]
ChatGPTのような生成的事前学習言語モデルは、事前学習フェーズ中にモデルが観察するパラメータの知識を符号化する。
この知識は、ユーザがプロンプトで指定したタスクに対処するために、推論で使用される。
提案手法では, モデルに符号化された知識を逆転させることが可能であることを示し, 実験では, 答えの正しさを損なうことが示唆された。
論文 参考訳(メタデータ) (2023-02-23T22:14:01Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - CREPE: Open-Domain Question Answering with False Presuppositions [92.20501870319765]
オンライン情報検索フォーラムからの予測失敗の自然な分布を含むQAデータセットであるCREPEを紹介する。
25%の質問が偽の前提命題を含み、これらの前提命題とその修正のための注釈を提供する。
既存のオープンドメインQAモデルの適応は適度に予測できるが、仮定が実際に正しいかどうかを予測するのに苦労する。
論文 参考訳(メタデータ) (2022-11-30T18:54:49Z) - FaVIQ: FAct Verification from Information-seeking Questions [77.7067957445298]
実ユーザによる情報探索質問を用いて,ファVIQと呼ばれる大規模事実検証データセットを構築した。
我々の主張は自然であると証明され、語彙バイアスがほとんどなく、検証の証拠を完全に理解する必要がある。
論文 参考訳(メタデータ) (2021-07-05T17:31:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。