論文の概要: A Proposed S.C.O.R.E. Evaluation Framework for Large Language Models : Safety, Consensus, Objectivity, Reproducibility and Explainability
- arxiv url: http://arxiv.org/abs/2407.07666v1
- Date: Wed, 10 Jul 2024 13:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 16:32:05.828851
- Title: A Proposed S.C.O.R.E. Evaluation Framework for Large Language Models : Safety, Consensus, Objectivity, Reproducibility and Explainability
- Title(参考訳): 大規模言語モデルのためのS.C.O.R.E.評価フレームワークの提案 : 安全性,コンセンサス,客観性,再現性,説明可能性
- Authors: Ting Fang Tan, Kabilan Elangovan, Jasmine Ong, Nigam Shah, Joseph Sung, Tien Yin Wong, Lan Xue, Nan Liu, Haibo Wang, Chang Fu Kuo, Simon Chesterman, Zee Kin Yeong, Daniel SW Ting,
- Abstract要約: 大規模言語モデル(LLM)の評価のための5つの重要な側面を提案する。
我々はS.C.O.R.E.が将来のLCMモデル評価フレームワークの基礎となることを示唆する。
- 参考スコア(独自算出の注目度): 5.924966178563408
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: A comprehensive qualitative evaluation framework for large language models (LLM) in healthcare that expands beyond traditional accuracy and quantitative metrics needed. We propose 5 key aspects for evaluation of LLMs: Safety, Consensus, Objectivity, Reproducibility and Explainability (S.C.O.R.E.). We suggest that S.C.O.R.E. may form the basis for an evaluation framework for future LLM-based models that are safe, reliable, trustworthy, and ethical for healthcare and clinical applications.
- Abstract(参考訳): 医療における大規模言語モデル(LLM)の包括的な質的評価フレームワーク。
本稿では, 安全性, コンセンサス, 客観性, 再現性, 説明可能性 (S.C.O.R.E.) の5つの重要な側面について述べる。
我々は、S.C.O.R.E.が、医療および臨床応用の安全性、信頼性、信頼性、倫理性を備えた将来のLCMベースのモデルの評価フレームワークの基盤となることを示唆している。
関連論文リスト
- SAFETY-J: Evaluating Safety with Critique [26.48394881477636]
SAFETY-Jは、英語と中国語のための二言語生成安全評価器であり、批判に基づく判断である。
人間の介入を最小限に抑えて批評の質を客観的に評価する自動メタ評価ベンチマークを構築した。
SAFETY-Jはよりニュアンスで正確な安全性評価を提供し、複雑なコンテンツシナリオにおける批判的品質と予測信頼性の両面を向上することを示した。
論文 参考訳(メタデータ) (2024-07-24T08:04:00Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性, Scoring Critera, Differentiating, User Experience, Responsible, Scalabilityの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - A Literature Review and Framework for Human Evaluation of Generative Large Language Models in Healthcare [11.28580626017631]
人工人工知能(AI)は医療に浸透し続けている。
従来の自動評価を人間の専門家による評価で補うことは依然として重要です。
人間の評価の煩雑さ、時間を要すること、そして標準化されていない性質は、実際に大規模言語モデルが広く採用される上で大きな障害となる。
論文 参考訳(メタデータ) (2024-05-04T04:16:07Z) - CLUE: A Clinical Language Understanding Evaluation for LLMs [2.3814275542331385]
大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献することが期待されている。
この敏感なアプリケーション領域に対するモデルの適合性を評価することは、非常に重要です。
臨床作業におけるLLMの評価に適したベンチマークであるCLUE(Ceriical Language Understanding Evaluation)を提案する。
論文 参考訳(メタデータ) (2024-04-05T12:51:37Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z) - CriticBench: Evaluating Large Language Models as Critic [115.8286183749499]
CriticBenchは、大規模言語モデル(LLM)の4つの重要な批判能力次元を包括的かつ確実に評価するために設計された新しいベンチマークである。
CriticBenchは9つの多様なタスクを含み、それぞれがLLMの応答を様々な品質の粒度で批判する能力を評価する。
オープンソース LLM とクローズドソース LLM の広範な評価により,批判能力と課題,応答品質,モデルスケールの興味深い関係が明らかとなった。
論文 参考訳(メタデータ) (2024-02-21T12:38:59Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - CValues: Measuring the Values of Chinese Large Language Models from
Safety to Responsibility [62.74405775089802]
LLMのアライメント能力を測定するために,中国初の人的価値評価ベンチマークであるCValuesを提案する。
その結果、我々は10のシナリオにまたがる敵の安全プロンプトを手作業で収集し、8つのドメインから責任プロンプトを誘導した。
以上の結果から,ほとんどの中国のLLMは安全面では良好に機能するが,責任面では十分な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2023-07-19T01:22:40Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。