論文の概要: Appraising the Potential Uses and Harms of LLMs for Medical Systematic
Reviews
- arxiv url: http://arxiv.org/abs/2305.11828v3
- Date: Wed, 18 Oct 2023 13:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:19:09.076813
- Title: Appraising the Potential Uses and Harms of LLMs for Medical Systematic
Reviews
- Title(参考訳): 医療システムレビューにおけるLCMの有用性とハーム
- Authors: Hye Sun Yun, Iain J. Marshall, Thomas A. Trikalinos, Byron C. Wallace
- Abstract要約: 大規模言語モデル(LLM)は、必要に応じて文献レビューを自動的に生成する可能性がある。
LLMは幻覚や省略によって不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
- 参考スコア(独自算出の注目度): 21.546144601311187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical systematic reviews play a vital role in healthcare decision making
and policy. However, their production is time-consuming, limiting the
availability of high-quality and up-to-date evidence summaries. Recent
advancements in large language models (LLMs) offer the potential to
automatically generate literature reviews on demand, addressing this issue.
However, LLMs sometimes generate inaccurate (and potentially misleading) texts
by hallucination or omission. In healthcare, this can make LLMs unusable at
best and dangerous at worst. We conducted 16 interviews with international
systematic review experts to characterize the perceived utility and risks of
LLMs in the specific context of medical evidence reviews. Experts indicated
that LLMs can assist in the writing process by drafting summaries, generating
templates, distilling information, and crosschecking information. They also
raised concerns regarding confidently composed but inaccurate LLM outputs and
other potential downstream harms, including decreased accountability and
proliferation of low-quality reviews. Informed by this qualitative analysis, we
identify criteria for rigorous evaluation of biomedical LLMs aligned with
domain expert views.
- Abstract(参考訳): 医療体系的レビューは、医療の意思決定と政策において重要な役割を果たす。
しかし、生産には時間がかかり、高品質で最新の証拠の要約の入手が制限されている。
大規模言語モデル(LLM)の最近の進歩は、必要に応じて文献レビューを自動的に生成する可能性を提供し、この問題に対処する。
しかし、LLMは幻覚や省略によって不正確な(そしておそらく誤解を招く)テキストを生成することがある。
医療の分野では、LSMを悪用し、最悪の場合危険に晒す可能性がある。
医学的エビデンスレビューの特定の文脈におけるllmの有用性とリスクを特徴付けるため,国際組織的レビュー専門家と16回のインタビューを行った。
専門家は、要約のドラフト作成、テンプレートの生成、蒸留情報、クロスチェック情報により、llmが書き込みプロセスを支援することを示唆した。
彼らはまた、信頼性が高く構成されているが不正確なLCM出力や、説明責任の低下や低品質レビューの拡散など、下流の潜在的な害に関する懸念も提起した。
この質的分析により, 生物医学的llmの厳密な評価基準を, ドメインエキスパートの見解と一致させた。
関連論文リスト
- MedExpQA: Multilingual Benchmarking of Large Language Models for Medical Question Answering [8.110978727364397]
大規模言語モデル(LLM)は、人工知能技術の発展を促進する可能性を秘めている。
本稿では,MedExpQAについて述べる。MedExpQAは,医学質問応答におけるLSMを評価するための,医学試験に基づく最初の多言語ベンチマークである。
論文 参考訳(メタデータ) (2024-04-08T15:03:57Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [48.18098860396162]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - How well do LLMs cite relevant medical references? An evaluation
framework and analyses [18.1921791355309]
大規模言語モデル(LLM)は現在、様々な臨床領域の医療的問題に答えるために使用されている。
本稿では、LCMが生成するソースは、実際にそれらが生成するクレームをサポートしますか?
GPT-4は, 医師会の88%の時間と一致し, 情報源の妥当性を高い精度で検証できることを実証した。
論文 参考訳(メタデータ) (2024-02-03T03:44:57Z) - FFT: Towards Harmlessness Evaluation and Analysis for LLMs with
Factuality, Fairness, Toxicity [21.539026782010573]
生成的人工知能の普及により、AI生成テキストによる潜在的な害に対する懸念が高まっている。
これまでの研究者は、生成言語モデルの無害性を評価するために多くの努力を払ってきた。
論文 参考訳(メタデータ) (2023-11-30T14:18:47Z) - A Survey of Large Language Models in Medicine: Progress, Application,
and Challenge [86.4234483148876]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z) - On the Risk of Misinformation Pollution with Large Language Models [127.1107824751703]
本稿では,現代大規模言語モデル (LLM) の誤用の可能性について検討する。
本研究は, LLMが効果的な誤情報発生器として機能し, DOQAシステムの性能が著しく低下することを明らかにする。
論文 参考訳(メタデータ) (2023-05-23T04:10:26Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。