Fugu-MT 論文翻訳(概要): RephQA: Evaluating Readability of Large Language Models in Public Health Question Answering

論文の概要: RephQA: Evaluating Readability of Large Language Models in Public Health Question Answering

arxiv url: http://arxiv.org/abs/2509.16360v2
Date: Fri, 03 Oct 2025 00:51:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-06 14:21:29.878296
Title: RephQA: Evaluating Readability of Large Language Models in Public Health Question Answering
Title（参考訳）: RephQA:公衆衛生質問応答における大規模言語モデルの可読性の評価
Authors: Weikang Qiu, Tinglin Huang, Ryan Rullo, Yucheng Kuang, Ali Maatouk, S. Raquel Ramos, Rex Ying,
Abstract要約: LLM(Large Language Models)は、複雑な医療問題に対処することを約束する。効果的な医療薬の開発における重要なボトルネックは、LCM生成応答の可読性にある。公衆衛生質問応答(QA)におけるLCMの可読性を評価するためのベンチマークであるRephQAを紹介する。
参考スコア（独自算出の注目度）: 22.172697706271535
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) hold promise in addressing complex medical problems. However, while most prior studies focus on improving accuracy and reasoning abilities, a significant bottleneck in developing effective healthcare agents lies in the readability of LLM-generated responses, specifically, their ability to answer public health problems clearly and simply to people without medical backgrounds. In this work, we introduce RephQA, a benchmark for evaluating the readability of LLMs in public health question answering (QA). It contains 533 expert-reviewed QA pairs from 27 sources across 13 topics, and includes a proxy multiple-choice task to assess informativeness, along with two readability metrics: Flesch-Kincaid grade level and professional score. Evaluation of 25 LLMs reveals that most fail to meet readability standards, highlighting a gap between reasoning and effective communication. To address this, we explore four readability-enhancing strategies-standard prompting, chain-of-thought prompting, Group Relative Policy Optimization (GRPO), and a token-adapted variant. Token-adapted GRPO achieves the best results, advancing the development of more practical and user-friendly public health agents. These results represent a step toward building more practical agents for public health.
Abstract（参考訳）: LLM(Large Language Models)は、複雑な医療問題に対処することを約束する。しかしながら、ほとんどの先行研究は精度の向上と推論能力に重点を置いているが、効果的な医療エージェントの開発における重要なボトルネックは、LSMが生成する応答の可読性にある。本稿では、公衆衛生質問応答(QA)におけるLCMの可読性を評価するためのベンチマークであるRephQAを紹介する。 13のトピックにわたる27のソースから533のエキスパートレビューされたQAペアが含まれており、情報提供性を評価するためのプロキシマルチ選択タスクと、Flesch-Kincaidグレードレベルとプロフェッショナルスコアの2つの可読性指標が含まれている。 25 LLMの評価は、ほとんどの場合可読性基準を満たさないことを示し、推論と効果的なコミュニケーションのギャップを浮き彫りにしている。これを解決するために,4つの可読性向上戦略-スタンダードプロンプト,チェーンオブ思想プロンプト,グループ相対政策最適化(GRPO),トークン適応型変種について検討する。 Token-adapted GRPOは、より実用的でユーザフレンドリーな公衆衛生エージェントの開発を推進し、最良の結果を得る。これらの結果は、公衆衛生のためのより実践的なエージェントを構築するための一歩である。

論文の概要: RephQA: Evaluating Readability of Large Language Models in Public Health Question Answering

関連論文リスト