論文の概要: HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router
- arxiv url: http://arxiv.org/abs/2410.02684v1
- Date: Thu, 3 Oct 2024 17:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 01:32:59.545400
- Title: HiddenGuard: Fine-Grained Safe Generation with Specialized Representation Router
- Title(参考訳): HiddenGuard: 特別な表現ルータを備えたファイングラインドセーフジェネレーション
- Authors: Lingrui Mei, Shenghua Liu, Yiwei Wang, Baolong Bi, Ruibin Yuan, Xueqi Cheng,
- Abstract要約: 我々はHiddenGuardを紹介した。HiddenGuardは大規模言語モデルにおいて、きめ細かな安全な生成のための新しいフレームワークである。
HiddenGuard には LLM と連携して動作する Prism が組み込まれている。
実験の結果,HiddenGuardはF1スコアの90%以上を達成し,有害なコンテンツを検出・再現することがわかった。
- 参考スコア(独自算出の注目度): 42.222681564769076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) grow increasingly powerful, ensuring their safety and alignment with human values remains a critical challenge. Ideally, LLMs should provide informative responses while avoiding the disclosure of harmful or sensitive information. However, current alignment approaches, which rely heavily on refusal strategies, such as training models to completely reject harmful prompts or applying coarse filters are limited by their binary nature. These methods either fully deny access to information or grant it without sufficient nuance, leading to overly cautious responses or failures to detect subtle harmful content. For example, LLMs may refuse to provide basic, public information about medication due to misuse concerns. Moreover, these refusal-based methods struggle to handle mixed-content scenarios and lack the ability to adapt to context-dependent sensitivities, which can result in over-censorship of benign content. To overcome these challenges, we introduce HiddenGuard, a novel framework for fine-grained, safe generation in LLMs. HiddenGuard incorporates Prism (rePresentation Router for In-Stream Moderation), which operates alongside the LLM to enable real-time, token-level detection and redaction of harmful content by leveraging intermediate hidden states. This fine-grained approach allows for more nuanced, context-aware moderation, enabling the model to generate informative responses while selectively redacting or replacing sensitive information, rather than outright refusal. We also contribute a comprehensive dataset with token-level fine-grained annotations of potentially harmful information across diverse contexts. Our experiments demonstrate that HiddenGuard achieves over 90% in F1 score for detecting and redacting harmful content while preserving the overall utility and informativeness of the model's responses.
- Abstract(参考訳): 大きな言語モデル(LLM)がますます強力になり、安全性と人間の価値との整合性を確保することは、依然として重要な課題です。
理想的には、LSMは有害情報や機密情報の開示を回避しつつ、情報的応答を提供するべきである。
しかしながら、有害なプロンプトを完全に拒否するトレーニングモデルや粗いフィルタの適用といった、拒否戦略に大きく依存する現在のアライメントアプローチは、そのバイナリの性質によって制限される。
これらの方法は、情報へのアクセスを完全に否定するか、十分なニュアンスなしで許可するかのいずれかで、過度に慎重な反応や、微妙な有害なコンテンツを検出する失敗につながる。
例えば、LSMは、誤用による薬物に関する基本的な公的情報の提供を拒否することがある。
さらに、これらの拒絶に基づく手法は、混合内容のシナリオを扱うのに苦労し、コンテキスト依存の感性に適応する能力が欠如しているため、良性コンテンツに対する過度な検閲が生じる可能性がある。
これらの課題を克服するために、LLMの微細で安全な生成のための新しいフレームワークであるHiddenGuardを紹介します。
HiddenGuardにはPrism (RePresentation Router for In-Stream Moderation)が組み込まれている。
このきめ細かいアプローチにより、よりニュアンスでコンテキスト対応のモデレーションが可能になり、モデルが直接拒否するのではなく、機密情報を選択的に書き換えたり置き換えたりしながら、情報的応答を生成できる。
また、さまざまなコンテキストにまたがる潜在的有害情報のトークンレベルのきめ細かいアノテーションによる包括的なデータセットも提供します。
実験の結果,HiddenGuard は F1 スコアの90%以上を達成し,有害な内容の検出と再現を行うとともに,モデル応答の全体的な有用性と情報性を維持した。
関連論文リスト
- VLMGuard: Defending VLMs against Malicious Prompts via Unlabeled Data [29.806775884883685]
VLMGuardは、未ラベルのユーザプロンプトを悪質なプロンプト検出に利用する、新しい学習フレームワークである。
良性検体と悪性検体を区別するための自動悪意度推定スコアを提示する。
私たちのフレームワークは、人間のアノテーションを余分に必要とせず、現実世界のアプリケーションに強力な柔軟性と実用性を提供します。
論文 参考訳(メタデータ) (2024-10-01T00:37:29Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。
IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。
IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-22T08:16:07Z) - Large Language Models are Vulnerable to Bait-and-Switch Attacks for
Generating Harmful Content [33.99403318079253]
大きな言語モデルから来る安全なテキストでさえ、Bait-and-Switch攻撃によって潜在的に危険なコンテンツになる可能性がある。
このアプローチの目覚ましい有効性は、LLMの信頼性の高い安全ガードレールを開発する上で重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T16:46:36Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z) - Can Sensitive Information Be Deleted From LLMs? Objectives for Defending
Against Extraction Attacks [73.53327403684676]
本稿では,モデル重みから直接センシティブな情報を削除する作業を研究するためのアタック・アンド・ディフェンスフレームワークを提案する。
モデル重み付けへの直接的編集について検討する。この手法は、削除された情報が将来的な攻撃によって抽出されないことを保証すべきである。
我々のホワイトボックスやブラックボックス攻撃は、編集されたモデルの38%から「削除された」情報を復元できるので、ROMEのような最先端のモデル編集方法でさえ、GPT-Jのようなモデルから事実情報を真に消し去るのに苦労している。
論文 参考訳(メタデータ) (2023-09-29T17:12:43Z) - Knowledge Sanitization of Large Language Models [4.722882736419499]
大規模な言語モデル(LLM)は、大量のWebデータをトレーニングすることで、機密情報や機密情報を明らかにする可能性がある。
我々の手法はローランド適応法(LoRA)を用いてこれらのモデルを効率的に微調整する。
クローズドブック質問応答タスクによる実験結果から,本手法は知識リークを最小限に抑えるだけでなく,LLMの全体的な性能も維持できることがわかった。
論文 参考訳(メタデータ) (2023-09-21T07:49:55Z) - LLM Censorship: A Machine Learning Challenge or a Computer Security
Problem? [52.71988102039535]
セマンティック検閲は決定不能な問題として認識できることを示す。
我々は、知識のある攻撃者が不寛容なアウトプットを再構築できるため、これらの課題はセマンティックな検閲を超えて拡張されていると論じる。
論文 参考訳(メタデータ) (2023-07-20T09:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。