論文の概要: Evaluating Large Language Models' Responses to Sexual and Reproductive Health Queries in Nepali
- arxiv url: http://arxiv.org/abs/2603.22291v1
- Date: Wed, 04 Mar 2026 09:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 02:36:12.976639
- Title: Evaluating Large Language Models' Responses to Sexual and Reproductive Health Queries in Nepali
- Title(参考訳): ネパールにおける性的・生殖的健康状態に対する大規模言語モデルの評価
- Authors: Medha Sharma, Supriya Khadka, Udit Chandra Aryal, Bishnu Hari Bhatta, Bijayan Bhattarai, Santosh Dahal, Kamal Gautam, Pushpa Joshi, Saugat Kafle, Shristi Khadka, Shushila Khadka, Binod Lamichhane, Shilpa Lamichhane, Anusha Parajuli, Sabina Pokharel, Suvekshya Sitaula, Neha Verma, Bishesh Khanal,
- Abstract要約: 本稿では, 精度, 言語, ユーザビリティギャップ, 安全性ギャップなど, さまざまな基準で評価を行うLEAFフレームワークを紹介する。
ネパールで14KのSRHクエリを9K以上のユーザから評価した。
結果、回答の35.1%が「適切」であり、正確で適切であり、大きなユーザビリティや安全性に関するギャップがないことが明らかとなった。
- 参考スコア(独自算出の注目度): 1.5533839292240545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) become integrated into daily life, they are increasingly used for personal queries, including Sexual and Reproductive Health (SRH), allowing users to chat anonymously without fear of judgment. However, current evaluation methods primarily focus on accuracy, often for objective queries in high-resource languages, and lack criteria to assess usability and safety, especially for low-resource languages and culturally sensitive domains like SRH. This paper introduces LLM Evaluation Framework (LEAF), that conducts assessments across multiple criteria: accuracy, language, usability gaps (including relevance, adequacy, and cultural appropriateness), and safety gaps (safety, sensitivity, and confidentiality). Using the LEAF framework, we assessed 14K SRH queries in Nepali from over 9K users. Responses were manually annotated by SRH experts according to the framework. Results revealed that only 35.1% of the responses were "proper", meaning they were accurate, adequate and had no major usability or safety related gaps. Insights include differences in performance between ChatGPT versions, such as similar accuracy but varying usability and safety aspects. This evaluation highlights significant limitations of current LLMs and underscores the need for improvement. The LEAF Framework is adaptable across domains and languages, particularly where usability and safety are critical, offering a pathway to better address sensitive topics.
- Abstract(参考訳): LLM(Large Language Models)が日常の生活に統合されるにつれて、Sexual and Reproductive Health (SRH) などの個人的クエリに使用されるようになり、ユーザーは判断を恐れずに匿名でチャットできるようになる。
しかし、現在の評価手法は主に精度に重点を置いており、特に低リソース言語やSRHのような文化的にセンシティブなドメインにおいて、高リソース言語における客観的クエリーや、ユーザビリティと安全性を評価する基準が欠如している。
本稿では,LLM評価フレームワーク (LEAF) について, 正確性, 言語, ユーザビリティギャップ (妥当性, 妥当性, 文化的適切性を含む) , 安全性ギャップ (安全性, 感受性, 機密性) の3つの基準で評価を行う。
LEAFフレームワークを用いてネパールでの14K SRHクエリを9K以上のユーザから評価した。
フレームワークによると、SRHの専門家によって手動でアノテートされた。
結果、回答の35.1%が「適切」であり、正確で適切であり、大きなユーザビリティや安全性に関するギャップがないことが明らかとなった。
ChatGPTバージョン間のパフォーマンスの違い、例えば、類似の正確性はあるが、ユーザビリティや安全性の面で違いがある。
この評価は、現在のLLMの重大な制限を強調し、改善の必要性を浮き彫りにしている。
LEAF Frameworkはドメインや言語、特にユーザビリティと安全性が重要であり、センシティブなトピックに対処するための道筋を提供する。
関連論文リスト
- Challenges of Evaluating LLM Safety for User Welfare [0.3749446315124487]
ユーザコンテキストを考慮した評価設計におけるユーザコンテキストの説明に関する根本的な疑問から,ユーザインタフェースの安全性評価の開発は簡単ではない,と我々は主張する。
我々は,GPT-5,Claude Sonnet 4,Gemini 2.5 Proから,さまざまな脆弱性のユーザプロファイルを通じて,財務と健康に関するアドバイスを評価した。
我々の研究は、多様なユーザプロファイルに対する応答を評価するために、効果的なユーザ・ウェルフェアの安全性評価が必要であることを証明している。
論文 参考訳(メタデータ) (2025-12-11T14:34:40Z) - REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。
REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。
主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文 参考訳(メタデータ) (2025-03-20T07:54:35Z) - CASE-Bench: Context-Aware SafEty Benchmark for Large Language Models [12.385397523940277]
大規模言語モデル(LLM)の安全性評価にコンテキストを組み込んだコンテキスト認識型SafEtyベンチマークであるCASE-Benchを紹介する。
Case-Benchは、コンテキスト整合性理論に基づく分類されたクエリに、明確に記述されたコンテキストを割り当てる。
本分析は, 安全性評価における文脈の必要性を強調し, 文脈が人間の判断に大きく, 重大な影響があることを明らかにする。
論文 参考訳(メタデータ) (2025-01-24T21:55:14Z) - SAFETY-J: Evaluating Safety with Critique [24.723999605458832]
SAFETY-Jは、英語と中国語のための二言語生成安全評価器であり、批判に基づく判断である。
人間の介入を最小限に抑えて批評の質を客観的に評価する自動メタ評価ベンチマークを構築した。
SAFETY-Jはよりニュアンスで正確な安全性評価を提供し、複雑なコンテンツシナリオにおける批判的品質と予測信頼性の両面を向上することを示した。
論文 参考訳(メタデータ) (2024-07-24T08:04:00Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。