論文の概要: Are LLM-generated plain language summaries truly understandable? A large-scale crowdsourced evaluation
- arxiv url: http://arxiv.org/abs/2505.10409v1
- Date: Thu, 15 May 2025 15:31:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.386621
- Title: Are LLM-generated plain language summaries truly understandable? A large-scale crowdsourced evaluation
- Title(参考訳): LLM生成プレーン言語要約は本当に理解可能か?大規模クラウドソースによる評価
- Authors: Yue Guo, Jae Ho Sohn, Gondy Leroy, Trevor Cohen,
- Abstract要約: 平凡な言語要約(PLS)は,臨床医と患者との効果的なコミュニケーションを促進するために不可欠である。
大規模言語モデル(LLM)は、最近PSS生成の自動化を約束しているが、その健康情報理解を支援する効果は未だ不明である。
LLM生成PSSの大規模クラウドソース評価をAmazon Mechanical Turkで実施し,150名を対象に実験を行った。
以上の結果から, LLMは主観的評価において人書きと区別できないPSSを生成できるが, 人書きPSSは理解度が著しく向上することが示唆された。
- 参考スコア(独自算出の注目度): 7.867257950096845
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Plain language summaries (PLSs) are essential for facilitating effective communication between clinicians and patients by making complex medical information easier for laypeople to understand and act upon. Large language models (LLMs) have recently shown promise in automating PLS generation, but their effectiveness in supporting health information comprehension remains unclear. Prior evaluations have generally relied on automated scores that do not measure understandability directly, or subjective Likert-scale ratings from convenience samples with limited generalizability. To address these gaps, we conducted a large-scale crowdsourced evaluation of LLM-generated PLSs using Amazon Mechanical Turk with 150 participants. We assessed PLS quality through subjective Likert-scale ratings focusing on simplicity, informativeness, coherence, and faithfulness; and objective multiple-choice comprehension and recall measures of reader understanding. Additionally, we examined the alignment between 10 automated evaluation metrics and human judgments. Our findings indicate that while LLMs can generate PLSs that appear indistinguishable from human-written ones in subjective evaluations, human-written PLSs lead to significantly better comprehension. Furthermore, automated evaluation metrics fail to reflect human judgment, calling into question their suitability for evaluating PLSs. This is the first study to systematically evaluate LLM-generated PLSs based on both reader preferences and comprehension outcomes. Our findings highlight the need for evaluation frameworks that move beyond surface-level quality and for generation methods that explicitly optimize for layperson comprehension.
- Abstract(参考訳): 平易な言語要約(PLS)は, 臨床医と患者との効果的なコミュニケーションを促進するために, 日常の人々が理解し, 行動しやすくすることで, 複雑な医療情報を伝達する上で不可欠である。
大規模言語モデル(LLM)は、最近PSS生成の自動化を約束しているが、その健康情報理解を支援する効果は未だ不明である。
従来の評価は、理解可能性を直接測定しない自動スコアや、一般化性に制限のある利便性サンプルからの主観評価に依存していた。
これらのギャップに対処するため,Amazon Mechanical Turk を用いたLCM生成PSSの大規模クラウドソース評価を行った。
主観評価は, 単純さ, 情報性, 一貫性, 忠実さ, 客観的多目的理解と読解のリコールに着目し, PLS の質評価を行った。
さらに,10の自動評価指標と人的判断の整合性を検討した。
以上の結果から, LLMは主観的評価において人書きと区別できないPSSを生成できるが, 人書きPSSは理解度が著しく向上することが示唆された。
さらに、自動評価指標は人間の判断を反映せず、PSSを評価するための適合性に疑問を投げかける。
本研究は,読取者の嗜好と理解結果の両方に基づいて,LLM生成PSSを体系的に評価する最初の研究である。
本研究は, 表面品質を超える評価フレームワークの必要性と, 日常的理解を明示的に最適化する生成手法の必要性を強調した。
関連論文リスト
- Enhancing Patient-Centric Communication: Leveraging LLMs to Simulate Patient Perspectives [19.462374723301792]
大きな言語モデル(LLM)はロールプレイングのシナリオにおいて印象的な機能を示している。
人間の行動を模倣することで、LLMは具体的な人口統計や専門的なプロファイルに基づいて反応を予測できる。
多様な背景を持つ個人をシミュレーションする上でのLLMの有効性を評価し,これらのシミュレーション行動の一貫性を解析した。
論文 参考訳(メタデータ) (2025-01-12T22:49:32Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Evaluation of General Large Language Models in Contextually Assessing
Semantic Concepts Extracted from Adult Critical Care Electronic Health Record
Notes [17.648021186810663]
本研究の目的は,大規模言語モデル(LLM)の実際の臨床ノートの理解と処理における性能を評価することである。
GPTファミリーモデルは、コスト効率と時間節約能力によって証明された、かなりの効率性を示している。
論文 参考訳(メタデータ) (2024-01-24T16:52:37Z) - Style Over Substance: Evaluation Biases for Large Language Models [17.13064447978519]
本研究では,大規模言語モデル(LLM)とともに,クラウドソースおよびエキスパートアノテータの挙動について検討する。
この結果から, 事実的誤りに対する回答は, 短すぎる, 文法的誤りを含む回答よりも好意的に評価され, 評価過程の偏りが示唆された。
評価面を1つのスコアにマージするのではなく,複数の次元にまたがるマシン生成テキストを独立に評価することを提案する。
論文 参考訳(メタデータ) (2023-07-06T14:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。