論文の概要: A Survey of Safety and Trustworthiness of Large Language Models through
the Lens of Verification and Validation
- arxiv url: http://arxiv.org/abs/2305.11391v2
- Date: Sun, 27 Aug 2023 13:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 23:46:35.523624
- Title: A Survey of Safety and Trustworthiness of Large Language Models through
the Lens of Verification and Validation
- Title(参考訳): 検証・検証のレンズによる大規模言語モデルの安全性と信頼性調査
- Authors: Xiaowei Huang, Wenjie Ruan, Wei Huang, Gaojie Jin, Yi Dong, Changshun
Wu, Saddek Bensalem, Ronghui Mu, Yi Qi, Xingyu Zhao, Kaiwen Cai, Yanghao
Zhang, Sihao Wu, Peipei Xu, Dengyu Wu, Andre Freitas, Mustafa A. Mustafa
- Abstract要約: 大規模言語モデル(LLM)は、エンドユーザーと人間レベルの会話を行う能力のために、AIの新たな熱波を爆発させた。
この調査は、産業応用における安全性と信頼性に関するものである。
- 参考スコア(独自算出の注目度): 21.242078120036176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have exploded a new heatwave of AI for their
ability to engage end-users in human-level conversations with detailed and
articulate answers across many knowledge domains. In response to their fast
adoption in many industrial applications, this survey concerns their safety and
trustworthiness. First, we review known vulnerabilities and limitations of the
LLMs, categorising them into inherent issues, attacks, and unintended bugs.
Then, we consider if and how the Verification and Validation (V&V) techniques,
which have been widely developed for traditional software and deep learning
models such as convolutional neural networks as independent processes to check
the alignment of their implementations against the specifications, can be
integrated and further extended throughout the lifecycle of the LLMs to provide
rigorous analysis to the safety and trustworthiness of LLMs and their
applications. Specifically, we consider four complementary techniques:
falsification and evaluation, verification, runtime monitoring, and regulations
and ethical use. In total, 370+ references are considered to support the quick
understanding of the safety and trustworthiness issues from the perspective of
V&V. While intensive research has been conducted to identify the safety and
trustworthiness issues, rigorous yet practical methods are called for to ensure
the alignment of LLMs with safety and trustworthiness requirements.
- Abstract(参考訳): 大規模言語モデル(llm)は、多くの知識ドメインにまたがる詳細な回答と人間のレベルでの会話にエンドユーザが関与できるように、aiの新たな熱波を爆発させた。
多くの産業アプリケーションで急速に採用されているこの調査は、安全性と信頼性を懸念している。
まず、LLMの既知の脆弱性と制限をレビューし、固有の問題、攻撃、意図しないバグに分類します。
次に、従来のソフトウェアや畳み込みニューラルネットワークなどのディープラーニングモデルで広く開発されている検証検証(V&V)技術が、仕様に対する実装の整合性をチェックする独立プロセスとして、LCMのライフサイクルを通じて統合され、さらに拡張され、LCMの安全性と信頼性に厳密な分析を提供することができるかどうかを検討する。
具体的には、ファルシフィケーションと評価、検証、実行監視、規制と倫理的利用の4つの補完手法を検討する。
合計で370以上の基準が、V&Vの観点からの安全性と信頼性の問題の迅速な理解を支援すると考えられている。
安全と信頼性の問題を特定するために集中的な研究が行われているが、安全と信頼性の要件とllmの整合を保証するための厳密で実用的な方法が求められている。
関連論文リスト
- Large Language Models for Cyber Security: A Systematic Literature Review [14.924782327303765]
サイバーセキュリティ(LLM4Security)における大規模言語モデルの適用に関する文献の総合的なレビューを行う。
LLMは、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクに応用されている。
第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
論文 参考訳(メタデータ) (2024-05-08T02:09:17Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices [4.927763944523323]
大規模言語モデル(LLM)は、自然言語処理(NLP)のランドスケープを大きく変えた。
本研究は,5つのテーマの観点から,LLMに関するセキュリティとプライバシの懸念を徹底的に調査する。
本稿は, LLMの安全性とリスク管理を強化するために, 今後の研究に期待できる道筋を提案する。
論文 参考訳(メタデータ) (2024-03-19T07:10:58Z) - Exploring Safety Generalization Challenges of Large Language Models via Code [126.80573601180411]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの共通の安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science [67.38554763406098]
大規模言語モデル(LLM)を利用したインテリジェントエージェントは、自律的な実験を行い、様々な分野にわたる科学的発見を促進する上で、大きな可能性を証明している。
彼らの能力は有望だが、安全を慎重に考慮する必要がある新たな脆弱性も導入している。
本稿では,科学領域におけるLSMをベースとしたエージェントの脆弱性の徹底的な調査を行い,その誤用に伴う潜在的なリスクに光を当て,安全性対策の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-06T18:54:07Z) - TrustLLM: Trustworthiness in Large Language Models [446.5640421311468]
本稿では,大規模言語モデル(LLM)における信頼度に関する総合的研究であるTrustLLMを紹介する。
まず、8つの異なる次元にまたがる信頼性の高いLCMの原則を提案する。
これらの原則に基づいて、真理性、安全性、公正性、堅牢性、プライバシ、機械倫理を含む6つの次元にわたるベンチマークを確立します。
論文 参考訳(メタデータ) (2024-01-10T22:07:21Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and
Vulnerabilities [14.684194175806203]
大規模言語モデル(LLM)は詐欺、偽造、マルウェアの発生に誤用されることがある。
本稿では,LSMの生成能力による脅威と,そのような脅威に対処するための予防措置と,不完全な予防措置に起因する脆弱性との関係を分類する。
論文 参考訳(メタデータ) (2023-08-24T14:45:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。