論文の概要: Guardians and Offenders: A Survey on Harmful Content Generation and Safety Mitigation of LLM
- arxiv url: http://arxiv.org/abs/2508.05775v2
- Date: Wed, 13 Aug 2025 07:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 11:55:47.604602
- Title: Guardians and Offenders: A Survey on Harmful Content Generation and Safety Mitigation of LLM
- Title(参考訳): 保護者と犯罪者 : LLMの有害コンテンツ生成と安全性軽減に関する調査
- Authors: Chi Zhang, Changjia Zhu, Junjie Xiong, Xiaoran Xu, Lingyao Li, Yao Liu, Zhuo Lu,
- Abstract要約: 大規模言語モデル(LLM)は、デジタルプラットフォーム全体でコンテンツ作成に革命をもたらした。
LLMは、コンテンツ生成、質問と回答(Q&A)、プログラミング、コード推論といった有益なアプリケーションを可能にする。
また、意図的または故意に有害、攻撃的、偏見のあるコンテンツを発生させることで深刻なリスクを生じさせる。
- 参考スコア(独自算出の注目度): 13.066526969147501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have revolutionized content creation across digital platforms, offering unprecedented capabilities in natural language generation and understanding. These models enable beneficial applications such as content generation, question and answering (Q&A), programming, and code reasoning. Meanwhile, they also pose serious risks by inadvertently or intentionally producing toxic, offensive, or biased content. This dual role of LLMs, both as powerful tools for solving real-world problems and as potential sources of harmful language, presents a pressing sociotechnical challenge. In this survey, we systematically review recent studies spanning unintentional toxicity, adversarial jailbreaking attacks, and content moderation techniques. We propose a unified taxonomy of LLM-related harms and defenses, analyze emerging multimodal and LLM-assisted jailbreak strategies, and assess mitigation efforts, including reinforcement learning with human feedback (RLHF), prompt engineering, and safety alignment. Our synthesis highlights the evolving landscape of LLM safety, identifies limitations in current evaluation methodologies, and outlines future research directions to guide the development of robust and ethically aligned language technologies.
- Abstract(参考訳): 大規模言語モデル(LLM)は、デジタルプラットフォーム全体でコンテンツ作成に革命をもたらし、自然言語生成と理解において前例のない能力を提供している。
これらのモデルは、コンテンツ生成、質問と回答(Q&A)、プログラミング、コード推論といった有益なアプリケーションを可能にする。
一方、有害、攻撃的、偏見のあるコンテンツを不注意に、あるいは故意に生み出すことによって、深刻なリスクも生じている。
LLMのこの二重の役割は、現実世界の問題を解決する強力なツールとしても、有害な言語の潜在的な源としても、社会技術的課題を迫られる。
本研究では、意図しない毒性、敵対的ジェイルブレイク攻撃、コンテンツモデレーション技術に関する最近の研究を体系的にレビューする。
本研究では, LLM関連害・防御の統一分類法を提案し, 新たなマルチモーダル・LLM支援ジェイルブレイク戦略を解析し, 人的フィードバックによる強化学習(RLHF), 迅速な工学, 安全アライメントなどの緩和策を評価する。
本稿では,LLMの安全性の進化の展望を強調し,現在の評価手法の限界を特定し,ロバストで倫理的に整合した言語技術の発展を導くための今後の研究の方向性を概説する。
関連論文リスト
- A Survey on Data Security in Large Language Models [12.23432845300652]
LLM(Large Language Models)は、自然言語処理、テキスト生成、機械翻訳、会話システムなどのパワーアプリケーションの基礎である。
トランスフォーメーションの可能性にもかかわらず、これらのモデルは本質的に大量のトレーニングデータに依存しており、しばしば多種多様な未処理ソースから収集され、深刻なデータセキュリティリスクにさらされる。
有害または悪意のあるデータは、モデル動作を妥協し、有害な出力、幻覚、即発注射やデータ中毒などの脅威に対する脆弱性などの問題を引き起こす。
本調査は、LLMが直面する主要なデータセキュリティリスクの概要と、敵を含む現在の防衛戦略のレビューを提供する。
論文 参考訳(メタデータ) (2025-08-04T11:28:34Z) - Can LLMs effectively provide game-theoretic-based scenarios for cybersecurity? [51.96049148869987]
大規模言語モデル(LLM)は、コンピュータシステムのセキュリティに新しいツールと課題を提供する。
従来のゲーム理論フレームワークが,LLM駆動型アクターやボットの動作を効果的に捉えることができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-08-04T08:57:14Z) - Security Concerns for Large Language Models: A Survey [3.175227858236288]
大きな言語モデル(LLM)は自然言語処理に革命をもたらしたが、その能力は新たなセキュリティ脆弱性も導入している。
我々は,LSMに関する新たなセキュリティ上の懸念の包括的概要,迅速な注射と脱獄への脅威の分類,入力の摂動やデータ中毒などの敵攻撃,および自律型LSMエージェントに固有の厄介なリスクについて述べる。
LLMが安全で有益であることを保証するために、堅牢で多層的なセキュリティ戦略を推進していくことの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-24T22:22:43Z) - Persuasion with Large Language Models: a Survey [49.86930318312291]
大規模言語モデル (LLM) は説得力のあるコミュニケーションに新たな破壊的可能性を生み出している。
政治、マーケティング、公衆衛生、電子商取引、慈善事業などの分野では、LLMシステムズは既に人間レベルや超人的説得力を達成している。
LLMをベースとした説得の現在と将来の可能性は、倫理的・社会的リスクを著しく引き起こす可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-11T10:05:52Z) - Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [8.345554966569479]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。
これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。
このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文 参考訳(メタデータ) (2024-10-20T00:00:56Z) - AI Safety in Generative AI Large Language Models: A Survey [14.737084887928408]
生成的AI能力を示す大規模言語モデル(LLM)は、採用とイノベーションの加速に直面している。
生成AI(GAI)は、これらのモデルに関連するリスクと安全性に関する懸念を必然的に高める。
本稿では,コンピュータ科学者の視点からAI安全研究の最新の動向について報告する。
論文 参考訳(メタデータ) (2024-07-06T09:00:18Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。