論文の概要: Health-SCORE: Towards Scalable Rubrics for Improving Health-LLMs
- arxiv url: http://arxiv.org/abs/2601.18706v1
- Date: Mon, 26 Jan 2026 17:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.96442
- Title: Health-SCORE: Towards Scalable Rubrics for Improving Health-LLMs
- Title(参考訳): Health-SCORE: ヘルスLLMを改善するためのスケーラブルなルーブリックを目指して
- Authors: Zhichao Yang, Sepehr Janghorbani, Dongxu Zhang, Jun Han, Qian Qian, Andrew Ressler, Gregory D. Lyng, Sanjit Singh Batra, Robert E. Tillman,
- Abstract要約: Health-SCOREは汎用的でスケーラブルなルーリックベースのトレーニングおよび評価フレームワークである。
性能を犠牲にすることなく、ごみ開発コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 5.0200371345178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rubrics are essential for evaluating open-ended LLM responses, especially in safety-critical domains such as healthcare. However, creating high-quality and domain-specific rubrics typically requires significant human expertise time and development cost, making rubric-based evaluation and training difficult to scale. In this work, we introduce Health-SCORE, a generalizable and scalable rubric-based training and evaluation framework that substantially reduces rubric development costs without sacrificing performance. We show that Health-SCORE provides two practical benefits beyond standalone evaluation: it can be used as a structured reward signal to guide reinforcement learning with safety-aware supervision, and it can be incorporated directly into prompts to improve response quality through in-context learning. Across open-ended healthcare tasks, Health-SCORE achieves evaluation quality comparable to human-created rubrics while significantly lowering development effort, making rubric-based evaluation and training more scalable.
- Abstract(参考訳): ラグビーは、特に医療などの安全上重要な領域において、オープンエンドのLCM応答を評価するのに不可欠である。
しかし、高品質でドメイン固有のルーリックを作成するには、人間の専門知識と開発コストがかなり必要であり、ルーリックに基づく評価とトレーニングのスケールが困難になる。
本研究では,汎用的でスケーラブルなルーリックベーストレーニングおよび評価フレームワークであるHealth-SCOREを導入し,性能を犠牲にすることなく,ルーリック開発コストを大幅に削減する。
安全に配慮した指導による強化学習を誘導するための構造的報酬信号として利用でき、文脈内学習による応答品質向上のプロンプトに直接組み込むことができる。
オープンエンドのヘルスケアタスク全体にわたって、Health-SCOREは、人為的なルーリックに匹敵する評価品質を達成しつつ、開発労力を大幅に削減し、ルーリックベースの評価とトレーニングをよりスケーラブルにする。
関連論文リスト
- Toward Human-Centered Readability Evaluation [0.0]
HCRS(Human-Centered Readability Score)は、Human-Computer Interaction (HCI)とHealth Communications研究に基づく5次元評価フレームワークである。
HCRSは、可読性と可読性の文脈的側面を捉えるために、構造化された人間のフィードバックと自動測度を統合している。
本研究は, 多様なユーザニーズ, 期待, 生きた経験とより密に整合したNLPシステムを実現することにより, 表面的指標を超えて, 健康テキストの簡易化を評価することを目的としている。
論文 参考訳(メタデータ) (2025-10-12T20:38:32Z) - Test-Time Learning and Inference-Time Deliberation for Efficiency-First Offline Reinforcement Learning in Care Coordination and Population Health Management [1.5635627702544692]
ケアコーディネートと人口健康管理プログラムはメディケイドと安全ネットの人口に役立っている。
そこで本研究では,(i)局所的な地域キャリブレーションによるテスト時間学習と,(ii)小さなQアンサンブルによる推論時間の検討により,トレーニング済みのポリシーを強化する,軽量なオフライン強化学習(RL)手法を提案する。
論文 参考訳(メタデータ) (2025-09-19T14:41:47Z) - The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [57.1838332916627]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。
広範囲に展開したことにより、大きな安全上の懸念がもたらされた。
LLMの生成したコンテンツは、特に敵の文脈において、毒性、偏見、誤情報などの安全でない振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-06T05:50:50Z) - AutoMedEval: Harnessing Language Models for Automatic Medical Capability Evaluation [55.2739790399209]
本稿では,医療用LLMの質問応答能力を測定するために,13Bパラメータを用いたオープンソースの自動評価モデルAutoMedEvalを提案する。
AutoMedEvalの包括的な目的は、多様なモデルが生み出す応答の質を評価することであり、人間の評価への依存を著しく低減することを目的としている。
論文 参考訳(メタデータ) (2025-05-17T07:44:54Z) - Ψ-Arena: Interactive Assessment and Optimization of LLM-based Psychological Counselors with Tripartite Feedback [51.26493826461026]
大規模言語モデル(LLM)の総合的評価と最適化のための対話型フレームワークであるPsi-Arenaを提案する。
アリーナは、心理学的にプロファイルされたNPCクライアントとの多段階対話を通じて現実世界のカウンセリングをシミュレートする現実的なアリーナ相互作用を特徴としている。
8つの最先端のLLM実験は、異なる実世界のシナリオと評価の観点で大きなパフォーマンス変化を示す。
論文 参考訳(メタデータ) (2025-05-06T08:22:51Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - A Scalable Framework for Evaluating Health Language Models [16.253655494186905]
大規模言語モデル(LLM)は、複雑なデータセットを分析する強力なツールとして登場した。
オープンエンドテキスト応答の現在の評価実践は、人間の専門家に大きく依存している。
この研究はAdaptive Precise Boolean rubrics(リンク)を紹介している。
論文 参考訳(メタデータ) (2025-03-30T06:47:57Z) - Building Trust in Mental Health Chatbots: Safety Metrics and LLM-Based Evaluation Tools [13.386012271835039]
100のベンチマーク質問と理想的な回答を備えた評価フレームワークを作成しました。
このフレームワークはメンタルヘルスの専門家によって検証され、GPT-3.5ベースのチャットボットでテストされた。
論文 参考訳(メタデータ) (2024-08-03T19:57:49Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。