Fugu-MT 論文翻訳(概要): Evaluating Large Language Models for Health-related Queries with Presuppositions

論文の概要: Evaluating Large Language Models for Health-related Queries with Presuppositions

arxiv url: http://arxiv.org/abs/2312.08800v1
Date: Thu, 14 Dec 2023 10:35:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 22:59:18.769480
Title: Evaluating Large Language Models for Health-related Queries with Presuppositions
Title（参考訳）: 前提条件による健康関連クエリのための大規模言語モデルの評価
Authors: Navreet Kaur and Monojit Choudhury and Danish Pruthi
Abstract要約: UPHILLは健康関連クエリーからなるデータセットで、予測の度合いは様々である。 InstructGPT, ChatGPT, BingChatモデルの実際の精度と一貫性を評価する。
参考スコア（独自算出の注目度）: 21.057893486837944
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As corporations rush to integrate large language models (LLMs) to their search offerings, it is critical that they provide factually accurate information that is robust to any presuppositions that a user may express. In this work, we introduce UPHILL, a dataset consisting of health-related queries with varying degrees of presuppositions. Using UPHILL, we evaluate the factual accuracy and consistency of InstructGPT, ChatGPT, and BingChat models. We find that while model responses rarely disagree with true health claims (posed as questions), they often fail to challenge false claims: responses from InstructGPT agree with 32% of the false claims, ChatGPT 26% and BingChat 23%. As we increase the extent of presupposition in input queries, the responses from InstructGPT and ChatGPT agree with the claim considerably more often, regardless of its veracity. Responses from BingChat, which rely on retrieved webpages, are not as susceptible. Given the moderate factual accuracy, and the inability of models to consistently correct false assumptions, our work calls for a careful assessment of current LLMs for use in high-stakes scenarios.
Abstract（参考訳）: 企業が検索に大規模な言語モデル(llm)を組み込むことを急いでいる中、ユーザが表現できるあらゆる前提条件にロバストな事実的正確な情報を提供することが重要である。本研究では, 様々な前提条件の健康関連クエリからなるデータセットであるUPHILLを紹介する。 UPHILLを用いて,InstructGPT,ChatGPT,BingChatモデルの実際の精度と一貫性を評価する。 instructgptからの回答は、偽の主張の32%、chatgpt 26%、bingchat 23%と一致しています。入力クエリの予測範囲を増加させるにつれて,instructgpt と chatgpt からの応答は,その妥当性に関わらず,より頻繁にその主張に一致する。検索したWebページに依存しているBingChatからの応答は、それほど影響を受けない。適度な事実の正確さとモデルが誤った仮定を一貫して修正できないことを踏まえ、我々は、高リスクシナリオで使用する現在のllmを慎重に評価することを求める。

関連論文リスト

AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models [12.515874333424929]
AssertBench氏は、事実的に真のステートメントの方向性のフレーミングがモデル合意にどのように影響するかを論じている。私たちは2つのフレーミングプロンプトを構築します。1つは、ユーザがそのステートメントが事実正しいと主張するもので、もう1つは、ユーザがそのステートメントが正しくないと主張するものです。次に、モデルの合意と推論を記録します。
論文参考訳（メタデータ） (2025-06-08T14:08:22Z)
Retrieval-Augmented Generation with Conflicting Evidence [57.66282463340297]
大規模言語モデル (LLM) エージェントは、応答の事実性を改善するために、検索強化世代 (RAG) をますます採用している。実際には、これらのシステムは曖昧なユーザクエリを処理し、複数のソースからの情報に衝突する可能性がある。 RAMDocs(Retrieval with Ambiguity and Misinformation in Documents)は,ユーザクエリのエビデンスを矛盾させるような,複雑で現実的なシナリオをシミュレートする新しいデータセットである。
論文参考訳（メタデータ） (2025-04-17T16:46:11Z)
Rethinking Prompt-based Debiasing in Large Language Models [40.90578215191079]
大規模言語モデル(LLM)におけるバイアスの調査は、信頼できるAIを開発する上で不可欠である。即発的なエンジニアリングは一般的であるが、その効果はモデルがバイアスを本質的に理解しているという仮定に依存している。本研究では,BBQ と StereoSet のベンチマークを用いて,オープンソースモデルと商用 GPT モデルの両方を用いて,この仮定を体系的に解析した。
論文参考訳（メタデータ） (2025-03-12T10:06:03Z)
Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies [66.30619782227173]
大規模言語モデル(LLMs)は、流動的で説得力のある誤った応答を生成することができる。ユーザの信頼を形作るLCM応答のいくつかの特徴を同定する。説明は正しい応答と誤応答の両方に依存することが判明した。情報源が提供された場合や説明が矛盾している場合の誤った応答への依存度は低い。
論文参考訳（メタデータ） (2025-02-12T16:35:41Z)
Contrastive Learning to Improve Retrieval for Real-world Fact Checking [84.57583869042791]
ファクト・チェッキング・リランカ(Contrastive Fact-Checking Reranker, CFR)を提案する。我々はAVeriTeCデータセットを活用し、証拠文書からの人間による回答とクレームのサブクエストを注釈付けする。データセットの精度は6%向上した。
論文参考訳（メタデータ） (2024-10-07T00:09:50Z)
Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-11T16:51:33Z)
RULE: Reliable Multimodal RAG for Factuality in Medical Vision Language Models [35.60385437194243]
現在の医療用大規模視覚言語モデル(Med-LVLM)は、しばしば現実の問題に遭遇する。外部知識を利用するRAGは、これらのモデルの現実的精度を向上させることができるが、2つの大きな課題を提起する。本稿では,2つのコンポーネントからなるRULEを提案する。まず,検索したコンテキストの選択を通じて事実性リスクを制御するための有効な戦略を提案する。次に、検索したコンテキストへの過度な依存がエラーを引き起こしたサンプルに基づいて、選好データセットをキュレートしてモデルを微調整する。
論文参考訳（メタデータ） (2024-07-06T16:45:07Z)
What Evidence Do Language Models Find Convincing? [94.90663008214918]
議論の的になっているクエリと、さまざまな事実を含む実世界の証拠文書を組み合わせたデータセットを構築します。このデータセットを用いて、感度と反ファクト分析を行い、どのテキスト特徴がLLM予測に最も影響するかを探索する。全体として、現在のモデルは、クエリに対するWebサイトの関連性に大きく依存している一方で、人間が重要と考えるスタイル的特徴をほとんど無視している。
論文参考訳（メタデータ） (2024-02-19T02:15:34Z)
The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。 LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文参考訳（メタデータ） (2024-01-01T14:02:27Z)
Evaluating ChatGPT as a Question Answering System: A Comprehensive Analysis and Comparison with Existing Models [0.0]
本稿では,質問応答システム(QAS)としてのChatGPTについて検討する。主な焦点は、提供された段落から回答を抽出する際のChatGPTの熟練度を評価することである。評価では幻覚が強調され、ChatGPTは提供された文脈で回答が得られない質問に対して応答を提供する。
論文参考訳（メタデータ） (2023-12-11T08:49:18Z)
Realistic Conversational Question Answering with Answer Selection based on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文参考訳（メタデータ） (2023-02-10T09:42:07Z)
FaVIQ: FAct Verification from Information-seeking Questions [77.7067957445298]
実ユーザによる情報探索質問を用いて,ファVIQと呼ばれる大規模事実検証データセットを構築した。我々の主張は自然であると証明され、語彙バイアスがほとんどなく、検証の証拠を完全に理解する必要がある。
論文参考訳（メタデータ） (2021-07-05T17:31:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。