論文の概要: Towards Safe and Aligned Large Language Models for Medicine
- arxiv url: http://arxiv.org/abs/2403.03744v1
- Date: Wed, 6 Mar 2024 14:34:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 14:43:43.546509
- Title: Towards Safe and Aligned Large Language Models for Medicine
- Title(参考訳): 医療用大規模言語モデルの構築に向けて
- Authors: Tessa Han, Aounon Kumar, Chirag Agarwal, Himabindu Lakkaraju
- Abstract要約: 我々は医療用人工知能システムのための医療安全とアライメントの定義を策定した。
医療用LLMの安全性と整合性について検討した。
我々は、機械学習コミュニティが安全で整合性のあるLLMを開発するために広く、大規模なアプローチについて論じる。
- 参考スコア(独自算出の注目度): 35.34134325715165
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The capabilities of large language models (LLMs) have been progressing at a
breathtaking speed, leaving even their own developers grappling with the depth
of their potential and risks. While initial steps have been taken to evaluate
the safety and alignment of general-knowledge LLMs, exposing some weaknesses,
to our knowledge, the safety and alignment of medical LLMs has not been
evaluated despite their risks for personal health and safety, public health and
safety, and human rights. To this end, we carry out the first safety evaluation
for medical LLMs. Specifically, we set forth a definition of medical safety and
alignment for medical artificial intelligence systems, develop a dataset of
harmful medical questions to evaluate the medical safety and alignment of an
LLM, evaluate both general and medical safety and alignment of medical LLMs,
demonstrate fine-tuning as an effective mitigation strategy, and discuss
broader, large-scale approaches used by the machine learning community to
develop safe and aligned LLMs. We hope that this work casts light on the safety
and alignment of medical LLMs and motivates future work to study it and develop
additional mitigation strategies, minimizing the risks of harm of LLMs in
medicine.
- Abstract(参考訳): 大規模言語モデル(llm)の能力は、息をのむようなスピードで進歩しており、開発者でさえその可能性とリスクの深さに満足している。
一般知識 LLM の安全性と整合性を評価するための最初の段階が取られたが、医療 LLM の安全性と整合性は、個人の健康と安全、公衆衛生と安全、人権のリスクにもかかわらず評価されていない。
この目的のために,我々は医療用llmの安全性評価を初めて実施する。
具体的には,医療用人工知能システムにおける医療安全とアライメントの定義,llmの医療安全とアライメントを評価するための有害な医療質問のデータセットの開発,医用llmの一般および医療安全とアライメントの評価,効果的な緩和戦略としての微調整の実証,安全でアライメントされたllmを開発するために機械学習コミュニティが使用する広範な大規模アプローチについて論じる。
本研究は、医療用LSMの安全性と整合性に光を当て、今後の研究を動機付け、医学におけるLSMの害のリスクを最小限に抑えて、さらなる緩和戦略を開発することを願っている。
関連論文リスト
- Uncovering Safety Risks in Open-source LLMs through Concept Activation Vector [62.23945242640024]
本稿では,概念に基づくモデル記述を用いたLLM攻撃手法を提案する。
安全概念アクティベーションベクトル(SCAV)をLLMのアクティベーション空間から抽出し、適切に整列されたLCMに対する効率的な攻撃を可能にする。
このことは、LLMが徹底的な安全調整をした後でも、社会に公開時に潜在的リスクを及ぼす可能性があることを示唆している。
論文 参考訳(メタデータ) (2024-04-18T09:46:25Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable
Safety Detectors [93.43498570530565]
ShieldLMはLarge Language Models (LLMs) の安全検知装置であり、一般的な人間の安全基準に適合する。
ShieldLMは4つのテストセットにまたがる強力なベースラインを超えており、優れたカスタマイズ性と説明可能性を示している。
論文 参考訳(メタデータ) (2024-02-26T09:43:02Z) - Safety of Multimodal Large Language Models on Images and Text [36.44982556551557]
本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。
MLLMの安全性を評価するための評価データセットと指標について概説する。
次に,MLLMの安全性に関する攻撃・防御技術について概説する。
論文 参考訳(メタデータ) (2024-02-01T05:57:10Z) - A Survey of Large Language Models in Medicine: Progress, Application,
and Challenge [86.4234483148876]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - SafetyBench: Evaluating the Safety of Large Language Models with
Multiple Choice Questions [56.70459851230943]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and
Vulnerabilities [14.684194175806203]
大規模言語モデル(LLM)は詐欺、偽造、マルウェアの発生に誤用されることがある。
本稿では,LSMの生成能力による脅威と,そのような脅威に対処するための予防措置と,不完全な予防措置に起因する脆弱性との関係を分類する。
論文 参考訳(メタデータ) (2023-08-24T14:45:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。