論文の概要: Building Benchmarks from the Ground Up: Community-Centered Evaluation of LLMs in Healthcare Chatbot Settings
- arxiv url: http://arxiv.org/abs/2509.24506v1
- Date: Mon, 29 Sep 2025 09:20:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.893836
- Title: Building Benchmarks from the Ground Up: Community-Centered Evaluation of LLMs in Healthcare Chatbot Settings
- Title(参考訳): 保健チャットボット設定におけるLCMの地域別評価
- Authors: Hamna, Gayatri Bhat, Sourabrata Mukherjee, Faisal Lalani, Evan Hadfield, Divya Siddarth, Kalika Bali, Sunayana Sitaram,
- Abstract要約: Samikshaはコミュニティ主導の評価パイプラインであり、市民社会組織(CSO)とコミュニティメンバーの共同開発である。
私たちのアプローチは、文化的に認識されたコミュニティ主導のパイプラインを通じて、スケーラブルで自動化されたベンチマークを可能にします。
- 参考スコア(独自算出の注目度): 16.749952463152418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are typically evaluated through general or domain-specific benchmarks testing capabilities that often lack grounding in the lived realities of end users. Critical domains such as healthcare require evaluations that extend beyond artificial or simulated tasks to reflect the everyday needs, cultural practices, and nuanced contexts of communities. We propose Samiksha, a community-driven evaluation pipeline co-created with civil-society organizations (CSOs) and community members. Our approach enables scalable, automated benchmarking through a culturally aware, community-driven pipeline in which community feedback informs what to evaluate, how the benchmark is built, and how outputs are scored. We demonstrate this approach in the health domain in India. Our analysis highlights how current multilingual LLMs address nuanced community health queries, while also offering a scalable pathway for contextually grounded and inclusive LLM evaluation.
- Abstract(参考訳): 大規模言語モデル(LLM)は一般的に、エンドユーザの生きた現実に根ざしていない一般的なまたはドメイン固有のベンチマークテスト機能を通じて評価される。
医療のような重要な領域は、日々の要求、文化の実践、およびコミュニティの曖昧な文脈を反映するために、人工的または模擬的なタスクを超えて拡張される評価を必要とする。
市民社会組織(CSO)とコミュニティメンバが共同で構築したコミュニティ主導型評価パイプラインであるSamikshaを提案する。
当社のアプローチでは,コミュニティからのフィードバックが評価対象やベンチマークの構築方法,アウトプットのスコアなど,文化的に認識されたコミュニティ主導のパイプラインを通じて,スケーラブルで自動的なベンチマークを可能にしています。
インドの健康分野におけるこのアプローチを実証する。
我々の分析では,現在の多言語 LLM がコミュニティの健康問題に対処すると同時に,文脈的基盤と包括的 LLM 評価のためのスケーラブルな経路を提供する。
関連論文リスト
- A Mixed-Methods Evaluation of LLM-Based Chatbots for Menopause [7.156867036177255]
医療環境におけるLLM(Large Language Models)の統合は注目されている。
更年期関連問合せのためのLLMベースのチャットボットの性能について検討する。
本研究は,健康トピックに対する従来の評価指標の約束と限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-05T19:56:52Z) - Value Compass Benchmarks: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は驚くべきブレークスルーを達成する。
価値を人間に合わせることは 責任ある開発に欠かせないものになっています
3つの望ましい目標を達成するLLMの評価はいまだに欠けている。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - The Challenges of Evaluating LLM Applications: An Analysis of Automated, Human, and LLM-Based Approaches [0.0]
本稿では,LLMに基づく評価と人間の評価との関連性について論じる。
本稿では,人間とLLMによる評価と組み合わせて活用できる包括的因子評価機構を提案する。
その結果, 因子に基づく評価は, LLMアプリケーションにおいてどの側面を改善する必要があるか, より優れた洞察をもたらすことがわかった。
論文 参考訳(メタデータ) (2024-06-05T14:55:10Z) - TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for
Human-Aligned LLMs [35.717370285231176]
大規模言語モデル(LLM)は、様々な自然言語タスクにまたがる印象的な機能を示している。
本研究では,LLMの習熟度を評価するために,多種多様な実世界の課題に対する指示に従うための包括的人間評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-09T13:58:59Z) - Post Turing: Mapping the landscape of LLM Evaluation [22.517544562890663]
本稿では,アラン・チューリングによる基礎的疑問からAI研究の現代まで,大規模言語モデル (LLM) 評価の歴史的軌跡を追究する。
これらのモデルのより広範な社会的意味を考慮し、統一的な評価システムの必要性を強調した。
この作業は、AIコミュニティがLLM評価の課題に協力して対処し、信頼性、公正性、社会的な利益を保証するために役立ちます。
論文 参考訳(メタデータ) (2023-11-03T17:24:50Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。