Fugu-MT 論文翻訳(概要): Self-Diagnosis and Large Language Models: A New Front for Medical Misinformation

論文の概要: Self-Diagnosis and Large Language Models: A New Front for Medical Misinformation

arxiv url: http://arxiv.org/abs/2307.04910v1
Date: Mon, 10 Jul 2023 21:28:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-12 16:50:30.793304
Title: Self-Diagnosis and Large Language Models: A New Front for Medical Misinformation
Title（参考訳）: 自己診断と大規模言語モデル:医療ミス情報の新たな前線
Authors: Francois Barnard, Marlize Van Sittert, Sirisha Rambhatla
Abstract要約: 一般ユーザによる自己診断のレンズから,大規模言語モデル(LLM)の性能を評価する。本研究では,実世界の事例を模倣したオープンエンド質問に対する応答を評価するテスト手法を開発した。 a) これらのモデルでは, 既知よりもパフォーマンスが悪く, b) 誤ったレコメンデーションを述べる際に, 過度な自信を含む特異な行動を示すことが明らかとなった。
参考スコア（独自算出の注目度）: 8.738092015092207
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Improving healthcare quality and access remains a critical concern for countries worldwide. Consequently, the rise of large language models (LLMs) has erupted a wealth of discussion around healthcare applications among researchers and consumers alike. While the ability of these models to pass medical exams has been used to argue in favour of their use in medical training and diagnosis, the impact of their inevitable use as a self-diagnostic tool and their role in spreading healthcare misinformation has not been evaluated. In this work, we critically evaluate LLMs' capabilities from the lens of a general user self-diagnosing, as well as the means through which LLMs may aid in the spread of medical misinformation. To accomplish this, we develop a testing methodology which can be used to evaluate responses to open-ended questions mimicking real-world use cases. In doing so, we reveal that a) these models perform worse than previously known, and b) they exhibit peculiar behaviours, including overconfidence when stating incorrect recommendations, which increases the risk of spreading medical misinformation.
Abstract（参考訳）: 医療の質とアクセスの改善は、世界中の国々にとって重要な関心事である。その結果、大規模言語モデル(llm)の台頭は、研究者や消費者の間で医療アプリケーションに関する豊富な議論を引き起こした。これらのモデルが医学試験に合格する能力は、医学訓練や診断に利用することを好んで論じるために使われてきたが、自己診断ツールとしての使用が避けられないことや、医療情報の拡散における役割は評価されていない。本研究では,一般ユーザによる自己診断のレンズからLLMの能力を評価するとともに,LLMが医療的誤報の拡散に有効であることを示す。そこで本研究では,実世界の事例を模倣したオープンエンド質問に対する応答を評価するテスト手法を開発した。そうすることで、私たちはそれを明らかにします。 a) これらのモデルは,既知よりも性能が悪く,かつ b) 医療上の誤報を広めるリスクを増大させる不適切な勧告を述べる際の過信を含む特異な行動を示すこと。

関連論文リスト

Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文参考訳（メタデータ） (2025-03-06T18:35:39Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
Enhancing Patient-Centric Communication: Leveraging LLMs to Simulate Patient Perspectives [19.462374723301792]
大きな言語モデル(LLM)はロールプレイングのシナリオにおいて印象的な機能を示している。人間の行動を模倣することで、LLMは具体的な人口統計や専門的なプロファイルに基づいて反応を予測できる。多様な背景を持つ個人をシミュレーションする上でのLLMの有効性を評価し,これらのシミュレーション行動の一貫性を解析した。
論文参考訳（メタデータ） (2025-01-12T22:49:32Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
MisinfoEval: Generative AI in the Era of "Alternative Facts" [50.069577397751175]
本稿では,大規模言語モデル(LLM)に基づく誤情報介入の生成と評価を行うフレームワークを提案する。本研究では,(1)誤情報介入の効果を測定するための模擬ソーシャルメディア環境の実験,(2)ユーザの人口動態や信念に合わせたパーソナライズされた説明を用いた第2の実験について述べる。以上の結果から,LSMによる介入はユーザの行動の修正に極めて有効であることが確認された。
論文参考訳（メタデータ） (2024-10-13T18:16:50Z)
The Role of Language Models in Modern Healthcare: A Comprehensive Review [2.048226951354646]
医療における大規模言語モデル(LLM)の適用は注目されている。本稿では,言語モデルの初期から現在までの軌跡を概観する。
論文参考訳（メタデータ） (2024-09-25T12:15:15Z)
MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models [20.781551849965357]
医用ビジュアル質問回答(VQA)ベンチマークデータセットであるMedConfusionを紹介した。現状のモデルは、画像のペアによって容易に混同され、それ以外は視覚的に異なっており、医療専門家にとってはっきりと区別されている。また、医療における信頼性が高く信頼性の高いMLLMの新しい世代の設計に役立つモデル失敗の共通パターンを抽出する。
論文参考訳（メタデータ） (2024-09-23T18:59:37Z)
STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。 STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文参考訳（メタデータ） (2024-06-28T15:01:23Z)
Evaluating large language models in medical applications: a survey [1.5923327069574245]
大規模言語モデル(LLM)は、多くのドメインにまたがる変換可能性を持つ強力なツールとして登場した。医学的文脈におけるLCMのパフォーマンスを評価することは、医療情報の複雑で批判的な性質から、ユニークな課題を提示する。
論文参考訳（メタデータ） (2024-05-13T05:08:33Z)
Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文参考訳（メタデータ） (2024-02-05T08:25:22Z)
LLM on FHIR -- Demystifying Health Records [0.32985979395737786]
本研究では,大規模言語モデル(LLM)を用いた健康記録と対話可能なアプリを開発した。このアプリは、医療データを患者フレンドリーな言語に効果的に翻訳し、その反応を異なる患者プロファイルに適応させることができた。
論文参考訳（メタデータ） (2024-01-25T17:45:34Z)
MedLM: Exploring Language Models for Medical Question Answering Systems [2.84801080855027]
大きな言語モデル(LLM)とその高度な生成能力は、様々なNLPタスクにおいて有望であることを示している。本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することである。この知見は、医学領域における特定の用途における異なるLMの適合性に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2024-01-21T03:37:47Z)
Large Language Models Illuminate a Progressive Pathway to Artificial Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。本稿では,医学におけるLSMの応用と意義について概説する。
論文参考訳（メタデータ） (2023-11-03T13:51:36Z)
Medical Foundation Models are Susceptible to Targeted Misinformation Attacks [3.252906830953028]
大規模言語モデル(LLM)は幅広い医学知識を持ち、多くの領域にわたって医療情報を推論することができる。モデルの重量のわずか1.1%を目標に操作することで、医学におけるLSMの脆弱性を実証する。我々は1038件の誤った生物医学的事実のセットでこの知見を検証した。
論文参考訳（メタデータ） (2023-09-29T06:44:36Z)
Language models are susceptible to incorrect patient self-diagnosis in medical applications [0.0]
患者からの自己診断報告を含むように修正された米国の医療委員会試験からの複数項目の質問を含む様々なLSMを提示する。以上の結果から, 誤った偏見検証情報を提案すると, LLMの診断精度は劇的に低下することが明らかとなった。
論文参考訳（メタデータ） (2023-09-17T19:56:39Z)
An Automatic Evaluation Framework for Multi-turn Medical Consultations Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-05T09:24:48Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)
Informing clinical assessment by contextualizing post-hoc explanations of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文参考訳（メタデータ） (2023-02-11T18:07:11Z)
Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文参考訳（メタデータ） (2020-12-10T13:56:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。