Fugu-MT 論文翻訳(概要): Appraising the Potential Uses and Harms of LLMs for Medical Systematic Reviews

論文の概要: Appraising the Potential Uses and Harms of LLMs for Medical Systematic Reviews

arxiv url: http://arxiv.org/abs/2305.11828v3
Date: Wed, 18 Oct 2023 13:54:15 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-19 20:19:09.076813
Title: Appraising the Potential Uses and Harms of LLMs for Medical Systematic Reviews
Title（参考訳）: 医療システムレビューにおけるLCMの有用性とハーム
Authors: Hye Sun Yun, Iain J. Marshall, Thomas A. Trikalinos, Byron C. Wallace
Abstract要約: 大規模言語モデル(LLM)は、必要に応じて文献レビューを自動的に生成する可能性がある。 LLMは幻覚や省略によって不正確な(そして潜在的に誤解を招く)テキストを生成することがある。
参考スコア（独自算出の注目度）: 21.546144601311187
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Medical systematic reviews play a vital role in healthcare decision making and policy. However, their production is time-consuming, limiting the availability of high-quality and up-to-date evidence summaries. Recent advancements in large language models (LLMs) offer the potential to automatically generate literature reviews on demand, addressing this issue. However, LLMs sometimes generate inaccurate (and potentially misleading) texts by hallucination or omission. In healthcare, this can make LLMs unusable at best and dangerous at worst. We conducted 16 interviews with international systematic review experts to characterize the perceived utility and risks of LLMs in the specific context of medical evidence reviews. Experts indicated that LLMs can assist in the writing process by drafting summaries, generating templates, distilling information, and crosschecking information. They also raised concerns regarding confidently composed but inaccurate LLM outputs and other potential downstream harms, including decreased accountability and proliferation of low-quality reviews. Informed by this qualitative analysis, we identify criteria for rigorous evaluation of biomedical LLMs aligned with domain expert views.
Abstract（参考訳）: 医療体系的レビューは、医療の意思決定と政策において重要な役割を果たす。しかし、生産には時間がかかり、高品質で最新の証拠の要約の入手が制限されている。大規模言語モデル(LLM)の最近の進歩は、必要に応じて文献レビューを自動的に生成する可能性を提供し、この問題に対処する。しかし、LLMは幻覚や省略によって不正確な(そしておそらく誤解を招く)テキストを生成することがある。医療の分野では、LSMを悪用し、最悪の場合危険に晒す可能性がある。医学的エビデンスレビューの特定の文脈におけるllmの有用性とリスクを特徴付けるため,国際組織的レビュー専門家と16回のインタビューを行った。専門家は、要約のドラフト作成、テンプレートの生成、蒸留情報、クロスチェック情報により、llmが書き込みプロセスを支援することを示唆した。彼らはまた、信頼性が高く構成されているが不正確なLCM出力や、説明責任の低下や低品質レビューの拡散など、下流の潜在的な害に関する懸念も提起した。この質的分析により, 生物医学的llmの厳密な評価基準を, ドメインエキスパートの見解と一致させた。

関連論文リスト

How Much Content Do LLMs Generate That Induces Cognitive Bias in Users? [13.872175096831343]
大規模言語モデル(LLM)は、レビュー要約から診断支援まで、アプリケーションにますます統合されている。我々は,LLMがユーザの偏りのあるコンテンツをいつ,どのように公開するかを調査し,その重大度を定量化する。以上の結果から, LLMは症例の21.86%で文脈の感情を変化させるコンテンツにユーザをさらけ出し, 57.33%の症例において, 覚醒後のデータ質問に幻覚を与え, 5.94%の症例でプライマリーバイアスを呈していた。
論文参考訳（メタデータ） (2025-07-03T21:56:44Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Automatically Evaluating the Paper Reviewing Capability of Large Language Models [46.0003776499898]
大きな言語モデル(LLM)は補助を提供する可能性を示しているが、研究はそれらが生成するレビューに重大な制限を報告している。本研究では, LLMの論文レビュー機能と専門家によるレビュー機能を比較することで, 自動評価パイプラインを構築した。
論文参考訳（メタデータ） (2025-02-24T12:05:27Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
Evaluation of LLM Vulnerabilities to Being Misused for Personalized Disinformation Generation [0.5070610131852027]
大型言語モデル(LLM)は、偽ニュース記事を生成するために効果的に誤用することができる。本研究は,近年のオープンおよびクローズドLCMの脆弱性評価により,このギャップを埋めるものである。以上の結果から,より強力な安全フィルターとディファイラの必要性が示された。
論文参考訳（メタデータ） (2024-12-18T09:48:53Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文参考訳（メタデータ） (2024-11-29T12:21:15Z)
Overview of TREC 2024 Biomedical Generative Retrieval (BioGen) Track [18.3893773380282]
幻覚や折り畳みは、生物医学領域で大きな言語モデル(LLM)を使用する際の重要な課題の1つである。不正確性は、医学的質問への回答、臨床的な決定、医学的な研究の評価など、リスクの高い状況において特に有害である可能性がある。
論文参考訳（メタデータ） (2024-11-27T05:43:00Z)
Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS'24 Experiment [59.09144776166979]
大規模言語モデル(LLM)は、科学的ピアレビューを支援する上で有望だが議論の余地のあるツールである。本研究は,論文提出を提出基準に適合させるツールとして,会議環境におけるLCMの有用性を評価する。
論文参考訳（メタデータ） (2024-11-05T18:58:00Z)
The Potential of LLMs in Medical Education: Generating Questions and Answers for Qualification Exams [9.802579169561781]
大規模言語モデル(LLM)は、数発のプロンプトに基づいて、医学的資格試験の質問とそれに対応する回答を生成することができる。研究によると、LSMは数発のプロンプトを使った後、現実世界の医学試験の質問を効果的に模倣できることがわかった。
論文参考訳（メタデータ） (2024-10-31T09:33:37Z)
Reliable and diverse evaluation of LLM medical knowledge mastery [6.825565574784612]
本稿では,医療用LDMの信頼性と多種多様な検査サンプルを生成する新しいフレームワークを提案する。提案手法を用いて,12の有名なLCMの医学的事実知識の習得を体系的に調査する。
論文参考訳（メタデータ） (2024-09-22T03:13:38Z)
LLM Internal States Reveal Hallucination Risk Faced With a Query [62.29558761326031]
人間は、クエリに直面したとき、私たちが知らないことを認識できる自己認識プロセスを持っています。本稿では,大規模言語モデルが応答生成に先立って,自身の幻覚リスクを推定できるかどうかを検討する。確率推定器により, LLM自己評価を利用して, 平均幻覚推定精度84.32%を達成する。
論文参考訳（メタデータ） (2024-07-03T17:08:52Z)
LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [106.45895712717612]
大規模言語モデル(LLM)は、様々な生成タスクにおいて顕著な汎用性を示している。本研究は,NLP研究者を支援するLLMの話題に焦点を当てる。私たちの知る限りでは、このような包括的な分析を提供するのはこれが初めてです。
論文参考訳（メタデータ） (2024-06-24T01:30:22Z)
CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文参考訳（メタデータ） (2024-05-20T14:34:01Z)
How well do LLMs cite relevant medical references? An evaluation framework and analyses [18.1921791355309]
大規模言語モデル(LLM)は現在、様々な臨床領域の医療的問題に答えるために使用されている。本稿では、LCMが生成するソースは、実際にそれらが生成するクレームをサポートしますか? GPT-4は, 医師会の88%の時間と一致し, 情報源の妥当性を高い精度で検証できることを実証した。
論文参考訳（メタデータ） (2024-02-03T03:44:57Z)
FFT: Towards Harmlessness Evaluation and Analysis for LLMs with Factuality, Fairness, Toxicity [21.539026782010573]
生成的人工知能の普及により、AI生成テキストによる潜在的な害に対する懸念が高まっている。これまでの研究者は、生成言語モデルの無害性を評価するために多くの努力を払ってきた。
論文参考訳（メタデータ） (2023-11-30T14:18:47Z)
Large Language Models Illuminate a Progressive Pathway to Artificial Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。本稿では,医学におけるLSMの応用と意義について概説する。
論文参考訳（メタデータ） (2023-11-03T13:51:36Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)
Medical Misinformation in AI-Assisted Self-Diagnosis: Development of a Method (EvalPrompt) for Analyzing Large Language Models [4.8775268199830935]
本研究は、自己診断ツールとしての大規模言語モデル(LLM)の有効性と、医療情報の拡散における役割を評価することを目的とする。我々は,実世界の自己診断を模倣するオープンエンド質問を用いて,現実的な自己診断を模倣する文のドロップアウトを行い,情報不足を伴う現実的な自己診断を模倣する。その結果, LLMの応答が不明確で不正確な場合が多いため, LLMの質素な機能を強調した。
論文参考訳（メタデータ） (2023-07-10T21:28:26Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。