Fugu-MT 論文翻訳(概要): Safeguarding Large Language Models: A Survey

論文の概要: Safeguarding Large Language Models: A Survey

arxiv url: http://arxiv.org/abs/2406.02622v1
Date: Mon, 3 Jun 2024 19:27:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 23:29:51.872722
Title: Safeguarding Large Language Models: A Survey
Title（参考訳）: 大規模言語モデルの保護: 調査
Authors: Yi Dong, Ronghui Mu, Yanghao Zhang, Siqi Sun, Tianle Zhang, Changshun Wu, Gaojie Jin, Yi Qi, Jinwei Hu, Jie Meng, Saddek Bensalem, Xiaowei Huang,
Abstract要約: 大規模言語モデル(LLM)の倫理的使用を所定の範囲内で確実にするための「保護」や「ガードレール」が義務付けられている。本稿は、この重要なメカニズムの現状について、体系的な文献レビューを提供する。その主な課題と、様々な文脈における倫理的問題を扱う包括的なメカニズムにどのように拡張できるかを論じる。
参考スコア（独自算出の注目度）: 20.854570045229917
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the burgeoning field of Large Language Models (LLMs), developing a robust safety mechanism, colloquially known as "safeguards" or "guardrails", has become imperative to ensure the ethical use of LLMs within prescribed boundaries. This article provides a systematic literature review on the current status of this critical mechanism. It discusses its major challenges and how it can be enhanced into a comprehensive mechanism dealing with ethical issues in various contexts. First, the paper elucidates the current landscape of safeguarding mechanisms that major LLM service providers and the open-source community employ. This is followed by the techniques to evaluate, analyze, and enhance some (un)desirable properties that a guardrail might want to enforce, such as hallucinations, fairness, privacy, and so on. Based on them, we review techniques to circumvent these controls (i.e., attacks), to defend the attacks, and to reinforce the guardrails. While the techniques mentioned above represent the current status and the active research trends, we also discuss several challenges that cannot be easily dealt with by the methods and present our vision on how to implement a comprehensive guardrail through the full consideration of multi-disciplinary approach, neural-symbolic method, and systems development lifecycle.
Abstract（参考訳）: 大規模言語モデル (LLMs) の急成長する分野において、堅牢な安全メカニズムを開発する「安全ガード (safeguards)」あるいは「ガードレール (guardrails)」は、指定された境界内でのLLMの倫理的使用を保証するために必須となっている。本稿は、この重要なメカニズムの現状について、体系的な文献レビューを提供する。その主な課題と、様々な文脈における倫理的問題を扱う包括的なメカニズムにどのように拡張できるかを論じる。まず、主要なLCMサービスプロバイダとオープンソースコミュニティが採用している保護メカニズムの現在の状況を明らかにする。続いて、幻覚、公正性、プライバシーなど、ガードレールが強制したいと思われるいくつかの(望ましくない)プロパティを評価し、分析し、拡張するテクニックが続く。これらに基づいて、これらの制御(すなわち攻撃)を回避し、攻撃を防御し、ガードレールを補強する手法をレビューする。上記の技術は現状や研究動向を反映しているが,本手法では容易に対処できないいくつかの課題についても論じるとともに,多分野的アプローチ,ニューラルシンボリック手法,システム開発ライフサイクルの完全な検討を通じて,包括的ガードレールの実装方法に関するビジョンを提示する。

関連論文リスト

NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models [68.09675063543402]
NeuroBreakは、ニューロンレベルの安全性メカニズムを分析し、脆弱性を軽減するために設計されたトップダウンのジェイルブレイク分析システムである。レイヤワイドな表現探索分析を取り入れることで、NeuroBreakはモデルの意思決定プロセスに関する新たな視点を提供する。本システムの有効性を検証するために,定量的評価とケーススタディを実施している。
論文参考訳（メタデータ） (2025-09-04T08:12:06Z)
A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives [65.3369988566853]
近年の研究では、敵が対象モデルの機能を複製できることが示されている。モデル抽出攻撃は知的財産権、プライバシー、システムのセキュリティに脅威をもたらす。本稿では,攻撃機構,防衛手法,計算環境に応じてMEAを分類する新しい分類法を提案する。
論文参考訳（メタデータ） (2025-08-20T19:49:59Z)
A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文参考訳（メタデータ） (2025-06-26T22:02:01Z)
From LLMs to MLLMs to Agents: A Survey of Emerging Paradigms in Jailbreak Attacks and Defenses within LLM Ecosystem [3.3821226324715403]
大規模言語モデル(LLM)は、シングルモーダルシステムからマルチモーダルLLMやインテリジェントエージェントへと急速に進化している。本稿では,LLMエコシステムにおけるジェイルブレイク攻撃の複雑化とそれに対応する防御機構について,系統的な調査を行った。
論文参考訳（メタデータ） (2025-06-18T06:33:19Z)
SoK: Evaluating Jailbreak Guardrails for Large Language Models [29.82176024701988]
大きな言語モデル(LLM)は目覚ましい進歩を遂げているが、そのデプロイメントは重大な脆弱性を露呈している。 LLMのインタラクションを監視し、制御する外部防衛機構であるガードレールが、将来性のあるソリューションとして登場した。 LLM用脱線ガードレールの総括解析を行った。
論文参考訳（メタデータ） (2025-06-12T11:42:40Z)
Attack and defense techniques in large language models: A survey and new perspectives [5.600972861188751]
大規模言語モデル(LLM)は多くの自然言語処理タスクの中心となっているが、その脆弱性はセキュリティと倫理的課題を呈している。この体系的な調査は、LLMにおける攻撃と防御技術の進化の展望を探求する。
論文参考訳（メタデータ） (2025-05-02T03:37:52Z)
MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文参考訳（メタデータ） (2025-03-24T20:38:42Z)
Temporal Context Awareness: A Defense Framework Against Multi-turn Manipulation Attacks on Large Language Models [0.0]
大規模言語モデル(LLM)は、高度なマルチターン操作攻撃に対してますます脆弱である。本稿では,この課題に対処するための新しい防御機構であるテンポラルコンテキスト認識フレームワークを紹介する。シミュレーションされた敵シナリオに関する予備的な評価は、微妙な操作パターンを識別するフレームワークの可能性を示している。
論文参考訳（メタデータ） (2025-03-18T22:30:17Z)
MITRE ATT&CK Applications in Cybersecurity and The Way Forward [18.339713576170396]
MITRE ATT&CKフレームワークは、サイバーセキュリティを強化し、脅威インテリジェンス、インシデント対応、アタックモデリング、脆弱性優先順位付けをサポートするために広く採用されているツールである。本論文は417冊の査読論文を解析し,これらの分野にまたがる応用研究を合成する。我々は、一般的に使用される敵戦術、技法、手順(TTP)を特定し、脅威検出と応答を改善するために自然言語処理(NLP)と機械学習(ML)の統合を検討する。
論文参考訳（メタデータ） (2025-02-15T15:01:04Z)
Safety at Scale: A Comprehensive Survey of Large Model Safety [298.05093528230753]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文参考訳（メタデータ） (2025-02-02T05:14:22Z)
SoK: Unifying Cybersecurity and Cybersafety of Multimodal Foundation Models with an Information Theory Approach [58.93030774141753]
MFM(Multimodal foundation model)は、人工知能の大幅な進歩を表す。本稿では,マルチモーダル学習におけるサイバーセーフティとサイバーセキュリティを概念化する。我々は、これらの概念をMFMに統一し、重要な脅威を特定するための総合的知識体系化(SoK)を提案する。
論文参考訳（メタデータ） (2024-11-17T23:06:20Z)
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey [50.031628043029244]
マルチモーダル生成モデルは、ビルトインの安全機構をバイパスし、潜在的に有害なコンテンツの生成を誘導できる、ジェイルブレイク攻撃の影響を受けやすい。本調査は,マルチモーダル生成モデルにおけるジェイルブレイクと防御についてレビューする。
論文参考訳（メタデータ） (2024-11-14T07:51:51Z)
Jailbreaking and Mitigation of Vulnerabilities in Large Language Models [4.564507064383306]
大規模言語モデル(LLM)は、自然言語の理解と生成を前進させることで、人工知能を変革した。これらの進歩にもかかわらず、LSMは、特に注射と脱獄攻撃を急ぐために、かなりの脆弱性を示してきた。このレビューでは、これらの脆弱性についての研究状況を分析し、利用可能な防衛戦略を提示する。
論文参考訳（メタデータ） (2024-10-20T00:00:56Z)
Recent Advances in Attack and Defense Approaches of Large Language Models [27.271665614205034]
大規模言語モデル(LLM)は、高度なテキスト処理と生成機能を通じて、人工知能と機械学習に革命をもたらした。彼らの広範な展開は、重大な安全性と信頼性の懸念を引き起こした。本稿は,LLMの脆弱性と脅威に関する最近の研究をレビューし,現代防衛機構の有効性を評価する。
論文参考訳（メタデータ） (2024-09-05T06:31:37Z)
Current state of LLM Risks and AI Guardrails [0.0]
大規模言語モデル(LLM)はますます洗練され、安全性と信頼性が最優先されるセンシティブなアプリケーションに広くデプロイされるようになる。これらのリスクは、LSMを望ましい行動と整合させ、潜在的な害を軽減するために、"ガードレール"の開発を必要とする。本研究は,LLMの展開に伴うリスクを調査し,ガードレールの実装とモデルアライメント技術に対する現在のアプローチを評価する。
論文参考訳（メタデータ） (2024-06-16T22:04:10Z)
A Survey on Large Language Models for Critical Societal Domains: Finance, Healthcare, and Law [65.87885628115946]
大規模言語モデル(LLM)は、金融、医療、法律の展望に革命をもたらしている。我々は、医療における診断・治療方法論の強化、財務分析の革新、法的解釈・コンプライアンス戦略の精査におけるLCMの役割を強調した。これらの分野におけるLLMアプリケーションの倫理を批判的に検討し、既存の倫理的懸念と透明で公平で堅牢なAIシステムの必要性を指摘した。
論文参考訳（メタデータ） (2024-05-02T22:43:02Z)
Building Guardrails for Large Language Models [19.96292920696796]
LLMの入力や出力をフィルタリングするガードレールは、コアセーフガード技術として登場した。このポジションペーパーでは、現在のオープンソースソリューション(Llama Guard, Nvidia NeMo, Guardrails AI)を詳しく調べ、より完全なソリューションを構築するための課題と道筋について論じる。
論文参考訳（メタデータ） (2024-02-02T16:35:00Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文参考訳（メタデータ） (2023-10-16T21:37:24Z)
Representation Engineering: A Top-Down Approach to AI Transparency [132.0398250233924]
表現工学の新たな領域(RepE)を特定し,特徴付ける RepEは、神経細胞や回路ではなく、人口レベルの表現を解析の中心に置く。これらの手法が、広範囲の安全関連問題に対してどのようにトラクションを提供するかを紹介する。
論文参考訳（メタデータ） (2023-10-02T17:59:07Z)
Inspect, Understand, Overcome: A Survey of Practical Methods for AI Safety [54.478842696269304]
安全クリティカルなアプリケーションにディープニューラルネットワーク(DNN)を使用することは、多数のモデル固有の欠点のために困難です。近年,これらの安全対策を目的とした最先端技術動物園が出現している。本稿は、機械学習の専門家と安全エンジニアの両方に対処する。
論文参考訳（メタデータ） (2021-04-29T09:54:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。