Fugu-MT 論文翻訳(概要): Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey

論文の概要: Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey

arxiv url: http://arxiv.org/abs/2402.09283v3
Date: Wed, 27 Mar 2024 13:55:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 22:03:50.953206
Title: Attacks, Defenses and Evaluations for LLM Conversation Safety: A Survey
Title（参考訳）: LLM会話安全のための攻撃・防衛・評価
Authors: Zhichen Dong, Zhanhui Zhou, Chao Yang, Jing Shao, Yu Qiao,
Abstract要約: 大規模言語モデル(LLM)が会話アプリケーションで一般的なものになった。有害な反応を引き起こすために悪用されるリスクは、深刻な社会的懸念を引き起こしている。
参考スコア（独自算出の注目度）: 34.70721683247682
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) are now commonplace in conversation applications. However, their risks of misuse for generating harmful responses have raised serious societal concerns and spurred recent research on LLM conversation safety. Therefore, in this survey, we provide a comprehensive overview of recent studies, covering three critical aspects of LLM conversation safety: attacks, defenses, and evaluations. Our goal is to provide a structured summary that enhances understanding of LLM conversation safety and encourages further investigation into this important subject. For easy reference, we have categorized all the studies mentioned in this survey according to our taxonomy, available at: https://github.com/niconi19/LLM-conversation-safety.
Abstract（参考訳）: 大規模言語モデル(LLM)が会話アプリケーションで一般的なものになった。しかし, 有害反応を誘発する誤用リスクは深刻な社会的懸念を生じさせ, LLM会話の安全性に関する最近の研究を刺激している。そこで本研究では,LLM会話の安全性の3つの重要な側面,すなわち攻撃,防御,評価について概説する。我々のゴールは、LLM会話の安全性の理解を深め、この重要な課題のさらなる調査を促進する構造的な要約を提供することである。簡単には、この調査で言及されたすべての研究を分類した: https://github.com/niconi19/LLM-conversation-safety。

関連論文リスト

Interpretation Meets Safety: A Survey on Interpretation Methods and Tools for Improving LLM Safety [18.43622753923107]
大規模言語モデル(LLM)は、より広い現実世界での使用、安全でない振る舞いの理解と緩和が不可欠である。我々は,このギャップを埋める最初の調査を行い,安全性を重視した解釈手法と,それらに通知する安全性向上と,それらを運用するツールを結合する統一的なフレームワークを紹介した。
論文参考訳（メタデータ） (2025-06-05T17:56:05Z)
A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment [291.03029298928857]
本稿では, LLM のトレーニング, 展開, 商業化のプロセス全体を通して, 安全問題を体系的に検討する "フルスタック" の安全性の概念を紹介する。我々の研究は800以上の論文を網羅的にレビューし、包括的カバレッジとセキュリティ問題の体系的な組織化を確保しています。本研究は,データ生成の安全性,アライメント技術,モデル編集,LLMベースのエージェントシステムなど,有望な研究方向を特定する。
論文参考訳（メタデータ） (2025-04-22T05:02:49Z)
How to Protect Yourself from 5G Radiation? Investigating LLM Responses to Implicit Misinformation [24.355564722047244]
大規模言語モデル(LLM)は多様なシナリオに広くデプロイされている。彼らが誤報をうまく広める程度は、重大な安全上の懸念として浮かび上がっている。暗黙的誤報の最初のベンチマークであるECHOMISTをキュレートした。
論文参考訳（メタデータ） (2025-03-12T17:59:18Z)
A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文参考訳（メタデータ） (2025-02-14T08:42:43Z)
Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。 MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文参考訳（メタデータ） (2024-10-08T16:16:07Z)
The Emerged Security and Privacy of LLM Agent: A Survey with Case Studies [43.65655064122938]
大規模言語モデル(LLM)エージェントは複雑なタスクを実行するために進化してきた。 LLMエージェントの幅広い応用は、その商業的価値を示している。しかし、セキュリティとプライバシの脆弱性も公開している。この調査は、LLMエージェントが直面しているプライバシーとセキュリティの問題を包括的に概観することを目的としている。
論文参考訳（メタデータ） (2024-07-28T00:26:24Z)
CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference [29.55937864144965]
この研究は,大規模言語モデル(LLM)におけるマルチターン対話コアの安全性を初めて研究したものである。私たちは14のカテゴリで1,400の質問のデータセットを作成しました。 LLaMA2-Chat-7bモデルでは56%、Mistral-7B-Instructモデルでは13.9%であった。
論文参考訳（メタデータ） (2024-06-25T15:13:02Z)
ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文参考訳（メタデータ） (2024-04-06T15:01:47Z)
Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue [10.101013733390532]
大規模言語モデル(LLM)は、違法または非倫理的な応答を生成することが実証されている。本稿では,人間は多ターン対話を利用してLSMを誘導し,有害な情報を生成することができると論じる。
論文参考訳（メタデータ） (2024-02-27T07:11:59Z)
Safety of Multimodal Large Language Models on Images and Texts [33.97489213223888]
本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。 MLLMの安全性を評価するための評価データセットと指標について概説する。次に,MLLMの安全性に関する攻撃・防御技術について概説する。
論文参考訳（メタデータ） (2024-02-01T05:57:10Z)
Security and Privacy Challenges of Large Language Models: A Survey [2.6986500640871482]
LLM(Large Language Models)は、テキストの生成や要約、言語翻訳、質問応答など、非常に優れた機能を示し、複数の分野に貢献している。これらのモデルは、Jailbreak攻撃、データ中毒攻撃、Personally Identible Information(PII)漏洩攻撃など、セキュリティやプライバシ攻撃にも脆弱である。この調査では、トレーニングデータとユーザの両方に対するLLMのセキュリティとプライバシの課題と、輸送、教育、医療といったさまざまな領域におけるアプリケーションベースのリスクについて、徹底的にレビューする。
論文参考訳（メタデータ） (2024-01-30T04:00:54Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。 11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文参考訳（メタデータ） (2023-09-13T15:56:50Z)
Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文参考訳（メタデータ） (2023-04-20T16:27:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。