論文の概要: RephQA: Evaluating Readability of Large Language Models in Public Health Question Answering
- arxiv url: http://arxiv.org/abs/2509.16360v2
- Date: Fri, 03 Oct 2025 00:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.878296
- Title: RephQA: Evaluating Readability of Large Language Models in Public Health Question Answering
- Title(参考訳): RephQA:公衆衛生質問応答における大規模言語モデルの可読性の評価
- Authors: Weikang Qiu, Tinglin Huang, Ryan Rullo, Yucheng Kuang, Ali Maatouk, S. Raquel Ramos, Rex Ying,
- Abstract要約: LLM(Large Language Models)は、複雑な医療問題に対処することを約束する。
効果的な医療薬の開発における重要なボトルネックは、LCM生成応答の可読性にある。
公衆衛生質問応答(QA)におけるLCMの可読性を評価するためのベンチマークであるRephQAを紹介する。
- 参考スコア(独自算出の注目度): 22.172697706271535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) hold promise in addressing complex medical problems. However, while most prior studies focus on improving accuracy and reasoning abilities, a significant bottleneck in developing effective healthcare agents lies in the readability of LLM-generated responses, specifically, their ability to answer public health problems clearly and simply to people without medical backgrounds. In this work, we introduce RephQA, a benchmark for evaluating the readability of LLMs in public health question answering (QA). It contains 533 expert-reviewed QA pairs from 27 sources across 13 topics, and includes a proxy multiple-choice task to assess informativeness, along with two readability metrics: Flesch-Kincaid grade level and professional score. Evaluation of 25 LLMs reveals that most fail to meet readability standards, highlighting a gap between reasoning and effective communication. To address this, we explore four readability-enhancing strategies-standard prompting, chain-of-thought prompting, Group Relative Policy Optimization (GRPO), and a token-adapted variant. Token-adapted GRPO achieves the best results, advancing the development of more practical and user-friendly public health agents. These results represent a step toward building more practical agents for public health.
- Abstract(参考訳): LLM(Large Language Models)は、複雑な医療問題に対処することを約束する。
しかしながら、ほとんどの先行研究は精度の向上と推論能力に重点を置いているが、効果的な医療エージェントの開発における重要なボトルネックは、LSMが生成する応答の可読性にある。
本稿では、公衆衛生質問応答(QA)におけるLCMの可読性を評価するためのベンチマークであるRephQAを紹介する。
13のトピックにわたる27のソースから533のエキスパートレビューされたQAペアが含まれており、情報提供性を評価するためのプロキシマルチ選択タスクと、Flesch-Kincaidグレードレベルとプロフェッショナルスコアの2つの可読性指標が含まれている。
25 LLMの評価は、ほとんどの場合可読性基準を満たさないことを示し、推論と効果的なコミュニケーションのギャップを浮き彫りにしている。
これを解決するために,4つの可読性向上戦略-スタンダードプロンプト,チェーンオブ思想プロンプト,グループ相対政策最適化(GRPO),トークン適応型変種について検討する。
Token-adapted GRPOは、より実用的でユーザフレンドリーな公衆衛生エージェントの開発を推進し、最良の結果を得る。
これらの結果は、公衆衛生のためのより実践的なエージェントを構築するための一歩である。
関連論文リスト
- Dr. GPT Will See You Now, but Should It? Exploring the Benefits and Harms of Large Language Models in Medical Diagnosis using Crowdsourced Clinical Cases [7.894865736540358]
大規模言語モデル(LLMs)は、医学(自己診断)や予備的トリアージなどの高度な応用に用いられている。
本稿では, LLMの有効性を評価するために, クラウドソーシングによる新たなアプローチを活用した大学レベルのコンペから得られた知見について述べる。
論文 参考訳(メタデータ) (2025-06-13T17:12:47Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - HealthQ: Unveiling Questioning Capabilities of LLM Chains in Healthcare Conversations [20.31796453890812]
HealthQは、医療会話における大規模言語モデル(LLM)の質問機能を評価するためのフレームワークである。
我々は LLM の判断を統合して, 具体性, 妥当性, 有用性など, 様々な指標を用いて, 生成した質問を評価する。
医療談話における質問機能評価のための最初の体系的枠組みを提示し、モデルに依存しない評価手法を確立し、高品質な質問をリンクして患者の情報引用を改善するための実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-09-28T23:59:46Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。