論文の概要: Beyond the Rubric: Cultural Misalignment in LLM Benchmarks for Sexual and Reproductive Health
- arxiv url: http://arxiv.org/abs/2511.17554v2
- Date: Wed, 26 Nov 2025 20:20:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.265389
- Title: Beyond the Rubric: Cultural Misalignment in LLM Benchmarks for Sexual and Reproductive Health
- Title(参考訳): ルブリックを超えて:性と生殖の健康のためのLCMベンチマークにおける文化的ミス
- Authors: Sumon Kanti Dey, Manvi S, Zeel Mehta, Meet Shah, Unnati Agrawal, Suhani Jalota, Azra Ismail,
- Abstract要約: 大型言語モデル (LLMs) は、グローバル・サウスの健康情報へのアクセスを拡大する可能性があると位置づけられている。
本研究は,インドにおける未治療地域社会を対象とした,性および生殖の健康(SRH)のためのチャットボットを用いた予備的なベンチマークエクササイズから得られた知見を提示する。
データセットから637のSRHクエリを抽出し、330のシングルターン会話で評価した。
本研究は、異なる文化的・医療的文脈で構築されたシステムの有効性を捉える上で、現在のベンチマークの限界を示すものである。
- 参考スコア(独自算出の注目度): 4.811306010183038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have been positioned as having the potential to expand access to health information in the Global South, yet their evaluation remains heavily dependent on benchmarks designed around Western norms. We present insights from a preliminary benchmarking exercise with a chatbot for sexual and reproductive health (SRH) for an underserved community in India. We evaluated using HealthBench, a benchmark for conversational health models by OpenAI. We extracted 637 SRH queries from the dataset and evaluated on the 330 single-turn conversations. Responses were evaluated using HealthBench's rubric-based automated grader, which rated responses consistently low. However, qualitative analysis by trained annotators and public health experts revealed that many responses were actually culturally appropriate and medically accurate. We highlight recurring issues, particularly a Western bias, such as for legal framing and norms (e.g., breastfeeding in public), diet assumptions (e.g., fish safe to eat during pregnancy), and costs (e.g., insurance models). Our findings demonstrate the limitations of current benchmarks in capturing the effectiveness of systems built for different cultural and healthcare contexts. We argue for the development of culturally adaptive evaluation frameworks that meet quality standards while recognizing needs of diverse populations.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、グローバル・サウスにおける健康情報へのアクセスを拡大する可能性があると位置づけられているが、その評価は西部標準を中心に設計されたベンチマークに大きく依存している。
本研究は,インドにおける未治療地域社会を対象とした,性および生殖の健康のためのチャットボットを用いた予備的なベンチマークエクササイズから得られた知見を提示する。
OpenAIによる会話型健康モデルのベンチマークであるHealthBenchを用いて評価を行った。
データセットから637のSRHクエリを抽出し、330のシングルターン会話で評価した。
応答はHealthBenchのルーブリックに基づく自動グレーダを用いて評価され、応答は一貫して低かった。
しかし、アノテーターや公衆衛生の専門家による質的分析の結果、多くの反応が文化的に適切で、医学的に正確であることが判明した。
われわれは、特に西洋の偏見、例えば、法律的なフレーミングや規範(例えば、公衆の授乳)、ダイエットの前提(例えば、妊娠中に安全な魚)、コスト(例えば、保険モデル)について強調する。
本研究は、異なる文化的・医療的文脈で構築されたシステムの有効性を捉える上で、現在のベンチマークの限界を示すものである。
多様な人口のニーズを認識しつつ品質基準を満たす文化的適応評価フレームワークの開発を論じる。
関連論文リスト
- Filling in the Clinical Gaps in Benchmark: Case for HealthBench for the Japanese medical system [5.7880565661958565]
本研究では,日本におけるHealthBenchの適用性について検討した。
日本語の資源は乏しく、翻訳された複数の質問から構成されることが多い。
論文 参考訳(メタデータ) (2025-09-22T07:36:12Z) - MORQA: Benchmarking Evaluation Metrics for Medical Open-Ended Question Answering [11.575146661047368]
我々は,NLG評価指標の有効性を評価するために,新しい多言語ベンチマークであるMORQAを紹介する。
従来のメトリクスと大規模言語モデル(LLM)ベースの評価器(GPT-4やGeminiなど)をベンチマークする。
本研究は,医学領域におけるNLG評価の総合的,多言語的質的研究である。
論文 参考訳(メタデータ) (2025-09-15T19:51:57Z) - Rethinking Evidence Hierarchies in Medical Language Benchmarks: A Critical Evaluation of HealthBench [0.0]
HealthBenchは、健康のためにAIシステムの能力を測定するために設計されたベンチマークである。
高レベルな臨床的証拠ではなく、専門家の意見に頼っているため、地域バイアスと個々の臨床医の同調を表わすリスクがある。
本稿では,体系的レビューとGRADEエビデンス評価を取り入れたバージョン管理臨床ガイドラインにおいて,報酬関数のアンカー化を提案する。
論文 参考訳(メタデータ) (2025-07-31T18:16:10Z) - A Scalable Framework for Evaluating Health Language Models [16.253655494186905]
大規模言語モデル(LLM)は、複雑なデータセットを分析する強力なツールとして登場した。
オープンエンドテキスト応答の現在の評価実践は、人間の専門家に大きく依存している。
この研究はAdaptive Precise Boolean rubrics(リンク)を紹介している。
論文 参考訳(メタデータ) (2025-03-30T06:47:57Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Social Biases in Automatic Evaluation Metrics for NLG [53.76118154594404]
本稿では,単語埋め込みアソシエーションテスト(WEAT)と文埋め込みアソシエーションテスト(SEAT)に基づく評価手法を提案する。
我々は、画像キャプションやテキスト要約タスクにおける性別バイアスの影響を調査するために、性別対応メタ評価データセットを構築した。
論文 参考訳(メタデータ) (2022-10-17T08:55:26Z) - Deconstructing NLG Evaluation: Evaluation Practices, Assumptions, and
Their Implications [85.24952708195582]
本研究では,NLG評価を形作る目標,コミュニティプラクティス,前提,制約について検討する。
その影響と倫理的考察の具体化について検討する。
論文 参考訳(メタデータ) (2022-05-13T18:00:11Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。