Fugu-MT 論文翻訳(概要): A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation

論文の概要: A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation

arxiv url: http://arxiv.org/abs/2305.11391v1
Date: Fri, 19 May 2023 02:41:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-22 16:31:48.036567
Title: A Survey of Safety and Trustworthiness of Large Language Models through the Lens of Verification and Validation
Title（参考訳）: 検証・検証のレンズによる大規模言語モデルの安全性と信頼性調査
Authors: Xiaowei Huang, Wenjie Ruan, Wei Huang, Gaojie Jin, Yi Dong, Changshun Wu, Saddek Bensalem, Ronghui Mu, Yi Qi, Xingyu Zhao, Kaiwen Cai, Yanghao Zhang, Sihao Wu, Peipei Xu, Dengyu Wu, Andre Freitas, Mustafa A. Mustafa
Abstract要約: 大規模言語モデル(LLM)は、エンドユーザーと人間レベルの会話を行う能力のために、AIの新たな熱波を爆発させた。この調査は、産業応用における安全性と信頼性に関するものである。
参考スコア（独自算出の注目度）: 10.392685858881855
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have exploded a new heatwave of AI, for their ability to engage end-users in human-level conversations with detailed and articulate answers across many knowledge domains. In response to their fast adoption in many industrial applications, this survey concerns their safety and trustworthiness. First, we review known vulnerabilities of the LLMs, categorising them into inherent issues, intended attacks, and unintended bugs. Then, we consider if and how the Verification and Validation (V&V) techniques, which have been widely developed for traditional software and deep learning models such as convolutional neural networks, can be integrated and further extended throughout the lifecycle of the LLMs to provide rigorous analysis to the safety and trustworthiness of LLMs and their applications. Specifically, we consider four complementary techniques: falsification and evaluation, verification, runtime monitoring, and ethical use. Considering the fast development of LLMs, this survey does not intend to be complete (although it includes 300 references), especially when it comes to the applications of LLMs in various domains, but rather a collection of organised literature reviews and discussions to support the quick understanding of the safety and trustworthiness issues from the perspective of V&V.
Abstract（参考訳）: 大規模言語モデル(LLM)がAIの新たな熱波を爆発させ、エンドユーザーを人間レベルの会話に巻き込み、多くの知識領域にわたって詳細な回答を得られるようにした。多くの産業アプリケーションで急速に採用されているこの調査は、安全性と信頼性を懸念している。まず、llmの既知の脆弱性をレビューし、固有の問題、意図した攻撃、意図しないバグに分類します。次に、従来のソフトウェアや畳み込みニューラルネットワークなどのディープラーニングモデルで広く開発されている検証検証(V&V)技術が、LCMのライフサイクルを通じて統合され、さらに拡張され、LCMの安全性と信頼性に関する厳密な分析が可能であるかを検討する。具体的には、ファルシフィケーションと評価、検証、実行監視、倫理的利用の4つの補完手法を検討する。 LLMの急速な開発を考えると、この調査は(300件の参考資料を含むが)完成するつもりはなく、特に各分野におけるLCMの適用に関して、V&Vの観点からの安全性と信頼性の問題の迅速な理解を支援するため、組織化された文献レビューや議論の収集である。

関連論文リスト

On the Surprising Efficacy of LLMs for Penetration-Testing [3.11537581064266]
この論文は、浸透試験におけるLarge Language Models (LLMs)の進化を徹底的にレビューする。さまざまな攻撃的なセキュリティタスクにまたがって、彼らのアプリケーションをデモし、サイバー殺人チェーンの幅広いフェーズをカバーする。論文では、より広範な採用と安全なデプロイメントを妨げる重要な障害を特定し、議論する。
論文参考訳（メタデータ） (2025-07-01T15:01:18Z)
REVAL: A Comprehension Evaluation on Reliability and Values of Large Vision-Language Models [59.445672459851274]
REVALは、Large Vision-Language Modelsの textbfREliability と textbfVALue を評価するために設計された包括的なベンチマークである。 REVALには144K以上の画像テキストビジュアル質問回答(VQA)サンプルが含まれており、信頼性と価値の2つの主要なセクションで構成されている。主流のオープンソースLVLMや,GPT-4oやGemini-1.5-Proといった著名なクローズドソースモデルを含む26のモデルを評価した。
論文参考訳（メタデータ） (2025-03-20T07:54:35Z)
A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文参考訳（メタデータ） (2025-02-14T08:42:43Z)
Trust & Safety of LLMs and LLMs in Trust & Safety [0.0]
本稿では,大規模言語モデルにおける信頼と安全性に関する現在の研究状況について考察する。信頼性と安全性が最優先の領域におけるLCMの利用の複雑さを掘り下げる。このレビューでは、信頼と安全においてLLMを使用するためのベストプラクティスに関する洞察を提供し、迅速な注入や脱獄攻撃といった新たなリスクについて調査する。
論文参考訳（メタデータ） (2024-12-03T03:10:12Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs [80.45174785447136]
実験室の事故は人命と財産に重大なリスクをもたらす。安全訓練の進歩にもかかわらず、実験員はいまだに無意識に安全でない慣行に従事している可能性がある。様々な分野におけるガイダンスのための大きな言語モデル(LLM)に対する懸念が高まっている。
論文参考訳（メタデータ） (2024-10-18T05:21:05Z)
Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。 MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文参考訳（メタデータ） (2024-10-08T16:16:07Z)
Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文参考訳（メタデータ） (2024-06-16T22:04:10Z)
Large Language Models for Cyber Security: A Systematic Literature Review [14.924782327303765]
サイバーセキュリティ(LLM4Security)における大規模言語モデルの適用に関する文献の総合的なレビューを行う。 LLMは、脆弱性検出、マルウェア分析、ネットワーク侵入検出、フィッシング検出など、幅広いサイバーセキュリティタスクに応用されている。第3に、細調整、転送学習、ドメイン固有の事前トレーニングなど、特定のサイバーセキュリティドメインにLLMを適用するための有望なテクニックをいくつか特定する。
論文参考訳（メタデータ） (2024-05-08T02:09:17Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
An Insight into Security Code Review with LLMs: Capabilities, Obstacles and Influential Factors [9.309745288471374]
セキュリティコードレビューは時間と労力を要するプロセスです。既存のセキュリティ分析ツールは、一般化の貧弱、偽陽性率の高い、粗い検出粒度に悩まされている。大きな言語モデル(LLM)は、これらの課題に対処するための有望な候補と考えられている。
論文参考訳（メタデータ） (2024-01-29T17:13:44Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。