論文の概要: RephQA: Evaluating Readability of Large Language Models in Public Health Question Answering
- arxiv url: http://arxiv.org/abs/2509.16360v2
- Date: Fri, 03 Oct 2025 00:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.878296
- Title: RephQA: Evaluating Readability of Large Language Models in Public Health Question Answering
- Title(参考訳): RephQA:公衆衛生質問応答における大規模言語モデルの可読性の評価
- Authors: Weikang Qiu, Tinglin Huang, Ryan Rullo, Yucheng Kuang, Ali Maatouk, S. Raquel Ramos, Rex Ying,
- Abstract要約: LLM(Large Language Models)は、複雑な医療問題に対処することを約束する。
効果的な医療薬の開発における重要なボトルネックは、LCM生成応答の可読性にある。
公衆衛生質問応答(QA)におけるLCMの可読性を評価するためのベンチマークであるRephQAを紹介する。
- 参考スコア(独自算出の注目度): 22.172697706271535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) hold promise in addressing complex medical problems. However, while most prior studies focus on improving accuracy and reasoning abilities, a significant bottleneck in developing effective healthcare agents lies in the readability of LLM-generated responses, specifically, their ability to answer public health problems clearly and simply to people without medical backgrounds. In this work, we introduce RephQA, a benchmark for evaluating the readability of LLMs in public health question answering (QA). It contains 533 expert-reviewed QA pairs from 27 sources across 13 topics, and includes a proxy multiple-choice task to assess informativeness, along with two readability metrics: Flesch-Kincaid grade level and professional score. Evaluation of 25 LLMs reveals that most fail to meet readability standards, highlighting a gap between reasoning and effective communication. To address this, we explore four readability-enhancing strategies-standard prompting, chain-of-thought prompting, Group Relative Policy Optimization (GRPO), and a token-adapted variant. Token-adapted GRPO achieves the best results, advancing the development of more practical and user-friendly public health agents. These results represent a step toward building more practical agents for public health.
- Abstract(参考訳): LLM(Large Language Models)は、複雑な医療問題に対処することを約束する。
しかしながら、ほとんどの先行研究は精度の向上と推論能力に重点を置いているが、効果的な医療エージェントの開発における重要なボトルネックは、LSMが生成する応答の可読性にある。
本稿では、公衆衛生質問応答(QA)におけるLCMの可読性を評価するためのベンチマークであるRephQAを紹介する。
13のトピックにわたる27のソースから533のエキスパートレビューされたQAペアが含まれており、情報提供性を評価するためのプロキシマルチ選択タスクと、Flesch-Kincaidグレードレベルとプロフェッショナルスコアの2つの可読性指標が含まれている。
25 LLMの評価は、ほとんどの場合可読性基準を満たさないことを示し、推論と効果的なコミュニケーションのギャップを浮き彫りにしている。
これを解決するために,4つの可読性向上戦略-スタンダードプロンプト,チェーンオブ思想プロンプト,グループ相対政策最適化(GRPO),トークン適応型変種について検討する。
Token-adapted GRPOは、より実用的でユーザフレンドリーな公衆衛生エージェントの開発を推進し、最良の結果を得る。
これらの結果は、公衆衛生のためのより実践的なエージェントを構築するための一歩である。
関連論文リスト
- From Knowledge to Inference: Scaling Laws of Specialized Reasoning on GlobalHealthAtlas [1.8594711725515678]
textbfGlobalHealthAtlasは15の公衆衛生ドメインと17の言語にまたがる280,210のインスタンスからなる大規模多言語データセットである。
本稿では,大規模言語モデル (LLM) による検索,複製,エビデンスグラウンドチェック,ラベル検証を併用して構築・品質制御パイプラインを提案する。
論文 参考訳(メタデータ) (2026-01-31T03:29:30Z) - Faithful Summarization of Consumer Health Queries: A Cross-Lingual Framework with LLMs [0.0]
本研究では,TextRankに基づく文抽出と医学的名前付きエンティティ認識を組み合わせたフレームワークを提案する。
我々はMeQSum(英語版)とBanglaCHQ-Summ(Bangla)データセット上でLLaMA-2-7Bモデルを微調整した。
人間の評価は、生成したサマリーの80%以上が重要な医療情報を保存していることを示している。
論文 参考訳(メタデータ) (2025-11-13T19:42:11Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Dr. GPT Will See You Now, but Should It? Exploring the Benefits and Harms of Large Language Models in Medical Diagnosis using Crowdsourced Clinical Cases [7.894865736540358]
大規模言語モデル(LLMs)は、医学(自己診断)や予備的トリアージなどの高度な応用に用いられている。
本稿では, LLMの有効性を評価するために, クラウドソーシングによる新たなアプローチを活用した大学レベルのコンペから得られた知見について述べる。
論文 参考訳(メタデータ) (2025-06-13T17:12:47Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - HealthQ: Unveiling Questioning Capabilities of LLM Chains in Healthcare Conversations [20.31796453890812]
HealthQは、医療会話における大規模言語モデル(LLM)の質問機能を評価するためのフレームワークである。
我々は LLM の判断を統合して, 具体性, 妥当性, 有用性など, 様々な指標を用いて, 生成した質問を評価する。
医療談話における質問機能評価のための最初の体系的枠組みを提示し、モデルに依存しない評価手法を確立し、高品質な質問をリンクして患者の情報引用を改善するための実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-09-28T23:59:46Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Interpretable Multi-Step Reasoning with Knowledge Extraction on Complex
Healthcare Question Answering [89.76059961309453]
HeadQAデータセットには、公衆医療専門試験で認可された複数の選択質問が含まれている。
これらの質問は、現在のQAシステムにとって最も難しいものです。
知識抽出フレームワーク(MurKe)を用いた多段階推論を提案する。
市販の事前訓練モデルを完全に活用しようと努力しています。
論文 参考訳(メタデータ) (2020-08-06T02:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。