論文の概要: Appraising the Potential Uses and Harms of LLMs for Medical Systematic
Reviews
- arxiv url: http://arxiv.org/abs/2305.11828v1
- Date: Fri, 19 May 2023 17:09:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 13:22:04.027607
- Title: Appraising the Potential Uses and Harms of LLMs for Medical Systematic
Reviews
- Title(参考訳): 医療システムレビューにおけるLCMの有用性とハーム
- Authors: Hye Sun Yun, Iain J. Marshall, Thomas Trikalinos, Byron C. Wallace
- Abstract要約: 大きな言語モデル(LLM)は長文を生成することができる。
LLMは、重要な情報を幻覚または省略することによって、不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
- 参考スコア(独自算出の注目度): 20.74608114488094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical systematic reviews are crucial for informing clinical decision making
and healthcare policy. But producing such reviews is onerous and
time-consuming. Thus, high-quality evidence synopses are not available for many
questions and may be outdated even when they are available. Large language
models (LLMs) are now capable of generating long-form texts, suggesting the
tantalizing possibility of automatically generating literature reviews on
demand. However, LLMs sometimes generate inaccurate (and potentially
misleading) texts by hallucinating or omitting important information. In the
healthcare context, this may render LLMs unusable at best and dangerous at
worst. Most discussion surrounding the benefits and risks of LLMs have been
divorced from specific applications. In this work, we seek to qualitatively
characterize the potential utility and risks of LLMs for assisting in
production of medical evidence reviews. We conducted 16 semi-structured
interviews with international experts in systematic reviews, grounding
discussion in the context of generating evidence reviews. Domain experts
indicated that LLMs could aid writing reviews, as a tool for drafting or
creating plain language summaries, generating templates or suggestions,
distilling information, crosschecking, and synthesizing or interpreting text
inputs. But they also identified issues with model outputs and expressed
concerns about potential downstream harms of confidently composed but
inaccurate LLM outputs which might mislead. Other anticipated potential
downstream harms included lessened accountability and proliferation of
automatically generated reviews that might be of low quality. Informed by this
qualitative analysis, we identify criteria for rigorous evaluation of
biomedical LLMs aligned with domain expert views.
- Abstract(参考訳): 医療体系的レビューは、臨床意思決定と医療政策を伝えるために不可欠である。
しかし、このようなレビューを作成するのは面倒で時間がかかる。
したがって、高品質なエビデンス・シンプは、多くの質問に対して利用できず、利用可能であっても時代遅れになる可能性がある。
大規模言語モデル(llm)は現在、長文テキストを生成することができ、必要に応じて文学レビューを自動的に生成する可能性を示唆している。
しかし、LLMは重要な情報を幻覚したり省略したりすることで、不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
医療の分野では、LSMはベストに使用できなくなり、最悪の場合危険になる可能性がある。
LLMの利点とリスクに関するほとんどの議論は、特定の応用から切り離されている。
本研究は,医学的エビデンスレビューの作成を支援するLLMの有用性とリスクを質的に評価することを目的とする。
組織的レビューにおける国際専門家との16の半構造化インタビューを実施し,エビデンスレビュー作成の文脈で議論を基礎づけた。
ドメインの専門家は、LCMはレビューを書くのに役立ち、プレーン言語要約の起草や作成、テンプレートや提案の作成、情報の蒸留、クロスチェック、テキスト入力の合成、解釈のツールとして役立つことを示した。
しかし、彼らはモデル出力の問題も特定し、自信を持って構成されたが不正確なLCM出力の潜在的な下流の害について懸念を表明した。
その他の予想されるダウンストリーム障害には、説明責任の低減と、品質の低い自動レビューの拡散があった。
この質的分析により, 生物医学的llmの厳密な評価基準を, ドメインエキスパートの見解と一致させた。
関連論文リスト
- Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。
本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文 参考訳(メタデータ) (2024-11-05T18:58:00Z) - The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams [9.802579169561781]
大規模言語モデル(LLM)は、数発のプロンプトに基づいて、医学的資格試験の質問とそれに対応する回答を生成することができる。
研究によると、LSMは数発のプロンプトを使った後、現実世界の医学試験の質問を効果的に模倣できることがわかった。
論文 参考訳(メタデータ) (2024-10-31T09:33:37Z) - Reliable and diverse evaluation of LLM medical knowledge mastery [6.825565574784612]
本稿では,医療用LDMの信頼性と多種多様な検査サンプルを生成する新しいフレームワークを提案する。
提案手法を用いて,12の有名なLCMの医学的事実知識の習得を体系的に調査する。
論文 参考訳(メタデータ) (2024-09-22T03:13:38Z) - LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。
本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。
確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文 参考訳(メタデータ) (2024-07-03T17:08:52Z) - LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。
本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。
私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文 参考訳(メタデータ) (2024-06-24T01:30:22Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - How well do LLMs cite relevant medical references? An evaluation
framework and analyses [18.1921791355309]
大規模言語モデル(LLM)は現在、様々な臨床領域の医療的問題に答えるために使用されている。
本稿では、LCMが生成するソースは、実際にそれらが生成するクレームをサポートしますか?
GPT-4は, 医師会の88%の時間と一致し, 情報源の妥当性を高い精度で検証できることを実証した。
論文 参考訳(メタデータ) (2024-02-03T03:44:57Z) - FFT: Towards Harmlessness Evaluation and Analysis for LLMs with
Factuality, Fairness, Toxicity [21.539026782010573]
生成的人工知能の普及により、AI生成テキストによる潜在的な害に対する懸念が高まっている。
これまでの研究者は、生成言語モデルの無害性を評価するために多くの努力を払ってきた。
論文 参考訳(メタデータ) (2023-11-30T14:18:47Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。