論文の概要: Appraising the Potential Uses and Harms of LLMs for Medical Systematic
Reviews
- arxiv url: http://arxiv.org/abs/2305.11828v3
- Date: Wed, 18 Oct 2023 13:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:19:09.076813
- Title: Appraising the Potential Uses and Harms of LLMs for Medical Systematic
Reviews
- Title(参考訳): 医療システムレビューにおけるLCMの有用性とハーム
- Authors: Hye Sun Yun, Iain J. Marshall, Thomas A. Trikalinos, Byron C. Wallace
- Abstract要約: 大規模言語モデル(LLM)は、必要に応じて文献レビューを自動的に生成する可能性がある。
LLMは幻覚や省略によって不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
- 参考スコア(独自算出の注目度): 21.546144601311187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical systematic reviews play a vital role in healthcare decision making
and policy. However, their production is time-consuming, limiting the
availability of high-quality and up-to-date evidence summaries. Recent
advancements in large language models (LLMs) offer the potential to
automatically generate literature reviews on demand, addressing this issue.
However, LLMs sometimes generate inaccurate (and potentially misleading) texts
by hallucination or omission. In healthcare, this can make LLMs unusable at
best and dangerous at worst. We conducted 16 interviews with international
systematic review experts to characterize the perceived utility and risks of
LLMs in the specific context of medical evidence reviews. Experts indicated
that LLMs can assist in the writing process by drafting summaries, generating
templates, distilling information, and crosschecking information. They also
raised concerns regarding confidently composed but inaccurate LLM outputs and
other potential downstream harms, including decreased accountability and
proliferation of low-quality reviews. Informed by this qualitative analysis, we
identify criteria for rigorous evaluation of biomedical LLMs aligned with
domain expert views.
- Abstract(参考訳): 医療体系的レビューは、医療の意思決定と政策において重要な役割を果たす。
しかし、生産には時間がかかり、高品質で最新の証拠の要約の入手が制限されている。
大規模言語モデル(LLM)の最近の進歩は、必要に応じて文献レビューを自動的に生成する可能性を提供し、この問題に対処する。
しかし、LLMは幻覚や省略によって不正確な(そしておそらく誤解を招く)テキストを生成することがある。
医療の分野では、LSMを悪用し、最悪の場合危険に晒す可能性がある。
医学的エビデンスレビューの特定の文脈におけるllmの有用性とリスクを特徴付けるため,国際組織的レビュー専門家と16回のインタビューを行った。
専門家は、要約のドラフト作成、テンプレートの生成、蒸留情報、クロスチェック情報により、llmが書き込みプロセスを支援することを示唆した。
彼らはまた、信頼性が高く構成されているが不正確なLCM出力や、説明責任の低下や低品質レビューの拡散など、下流の潜在的な害に関する懸念も提起した。
この質的分析により, 生物医学的llmの厳密な評価基準を, ドメインエキスパートの見解と一致させた。
関連論文リスト
- Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。
既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。
LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文 参考訳(メタデータ) (2025-02-20T05:27:51Z) - Evaluation of LLM Vulnerabilities to Being Misused for Personalized Disinformation Generation [0.5070610131852027]
大型言語モデル(LLM)は、偽ニュース記事を生成するために効果的に誤用することができる。
本研究は,近年のオープンおよびクローズドLCMの脆弱性評価により,このギャップを埋めるものである。
以上の結果から,より強力な安全フィルターとディファイラの必要性が示された。
論文 参考訳(メタデータ) (2024-12-18T09:48:53Z) - Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。
未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。
5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文 参考訳(メタデータ) (2024-12-02T16:55:03Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Overview of TREC 2024 Biomedical Generative Retrieval (BioGen) Track [18.3893773380282]
幻覚や折り畳みは、生物医学領域で大きな言語モデル(LLM)を使用する際の重要な課題の1つである。
不正確性は、医学的質問への回答、臨床的な決定、医学的な研究の評価など、リスクの高い状況において特に有害である可能性がある。
論文 参考訳(メタデータ) (2024-11-27T05:43:00Z) - Reliable and diverse evaluation of LLM medical knowledge mastery [6.825565574784612]
本稿では,医療用LDMの信頼性と多種多様な検査サンプルを生成する新しいフレームワークを提案する。
提案手法を用いて,12の有名なLCMの医学的事実知識の習得を体系的に調査する。
論文 参考訳(メタデータ) (2024-09-22T03:13:38Z) - LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。
本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。
確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文 参考訳(メタデータ) (2024-07-03T17:08:52Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity [20.510512358961517]
生成的人工知能の普及により、AI生成テキストによる潜在的な害に対する懸念が高まっている。
これまでの研究者は、生成言語モデルの無害性を評価するために多くの努力を払ってきた。
論文 参考訳(メタデータ) (2023-11-30T14:18:47Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。