論文の概要: Legilimens: Practical and Unified Content Moderation for Large Language Model Services
- arxiv url: http://arxiv.org/abs/2408.15488v1
- Date: Wed, 28 Aug 2024 02:27:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 17:22:57.333742
- Title: Legilimens: Practical and Unified Content Moderation for Large Language Model Services
- Title(参考訳): Legilimens: 大規模言語モデルサービスのための実践的で統一されたコンテンツモデレーション
- Authors: Jialin Wu, Jiangyi Deng, Shengyuan Pang, Yanjiao Chen, Jiayang Xu, Xinfeng Li, Wenyuan Xu,
- Abstract要約: 大規模言語モデル(LLM)のための実践的で統一的なコンテンツモデレーションフレームワークを提案する。
チャット指向のLLMから概念的特徴を抽出することにより、効果的で効率的なコンテンツモデレーションを実現することができることを示す。
我々は,5つのLLM,17のデータセット,9つのジェイルブレイク法を用いて,レジリメンの有効性,効率,堅牢性を検証した。
- 参考スコア(独自算出の注目度): 22.759606041925103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given the societal impact of unsafe content generated by large language models (LLMs), ensuring that LLM services comply with safety standards is a crucial concern for LLM service providers. Common content moderation methods are limited by an effectiveness-and-efficiency dilemma, where simple models are fragile while sophisticated models consume excessive computational resources. In this paper, we reveal for the first time that effective and efficient content moderation can be achieved by extracting conceptual features from chat-oriented LLMs, despite their initial fine-tuning for conversation rather than content moderation. We propose a practical and unified content moderation framework for LLM services, named Legilimens, which features both effectiveness and efficiency. Our red-team model-based data augmentation enhances the robustness of Legilimens against state-of-the-art jailbreaking. Additionally, we develop a framework to theoretically analyze the cost-effectiveness of Legilimens compared to other methods. We have conducted extensive experiments on five host LLMs, seventeen datasets, and nine jailbreaking methods to verify the effectiveness, efficiency, and robustness of Legilimens against normal and adaptive adversaries. A comparison of Legilimens with both commercial and academic baselines demonstrates the superior performance of Legilimens. Furthermore, we confirm that Legilimens can be applied to few-shot scenarios and extended to multi-label classification tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)が生み出す安全でないコンテンツの社会的影響を考えると,LLM サービスが安全基準に準拠していることが LLM サービスプロバイダにとって重要な懸念事項である。
一般的なコンテンツモデレーション手法は、単純なモデルは脆弱であり、洗練されたモデルは過剰な計算資源を消費する、有効かつ効率的なジレンマによって制限される。
本稿では,コンテンツモデレーションよりも会話の微調整を最初に行ったが,チャット指向のLLMから概念的特徴を抽出することで,効果的で効率的なコンテンツモデレーションを実現することができることを初めて明らかにする。
本稿では,LLMサービスのための実用的で統一的なコンテンツモデレーションフレームワークであるLegilimensを提案する。
当社のレッドチームモデルベースのデータ拡張は、最先端のジェイルブレイクに対するレジリエンスの堅牢性を高めます。
さらに,他の手法と比較して,議員の費用対効果を理論的に分析する枠組みを開発する。
我々は,5つのホストLDM,17のデータセット,9つのジェイルブレイク法を用いて,正規および適応的敵に対するレジリエントの有効性,効率,堅牢性を検証した。
レジリメンと商業的・学術的な基礎とを比較すると、レジリメンの優れたパフォーマンスが示される。
さらに,レギリメンを少数ショットのシナリオに適用し,複数ラベルの分類タスクに拡張できることを確認した。
関連論文リスト
- Efficient LLM-Jailbreaking by Introducing Visual Modality [28.925716670778076]
本稿では,大規模言語モデル(LLM)に対するジェイルブレイク攻撃に焦点を当てた。
我々のアプローチは、ターゲットのLLMに視覚モジュールを組み込むことで、MLLM(Multimodal large language model)を構築することから始まる。
我々は, EmbJS をテキスト空間に変換し, ターゲット LLM のジェイルブレイクを容易にする。
論文 参考訳(メタデータ) (2024-05-30T12:50:32Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - The Strong Pull of Prior Knowledge in Large Language Models and Its Impact on Emotion Recognition [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理のための強力なパラダイムとして登場した。
LLMには、感情認識において強いが矛盾する先行性があり、その予測に影響を及ぼすことが示される。
以上の結果から,ICLをより大きなLCMで事前学習領域外の情動中心タスクに使用する場合,注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:07:32Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Distract Large Language Models for Automatic Jailbreak Attack [8.364590541640482]
大規模言語モデルの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークを提案する。
我々は、Jailbreak LLMに対する反復最適化アルゴリズムを用いて、悪意のあるコンテンツの隠蔽とメモリリフレーミングを設計した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - Not All Experts are Equal: Efficient Expert Pruning and Skipping for Mixture-of-Experts Large Language Models [90.14693869269519]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Learn To be Efficient: Build Structured Sparsity in Large Language Models [17.940183066850565]
大きな言語モデル(LLM)は、その10億レベルのパラメータで驚くべき成功を収めていますが、高い推論オーバーヘッドを引き起こします。
既存の方法は、訓練後の環境で自然に形成された活性化空間の利用にのみ焦点をあてる。
本稿では,Learning-To-Efficient (LTE) という学習学習アルゴリズムを導入する。
論文 参考訳(メタデータ) (2024-02-09T01:18:16Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - One-Shot Sensitivity-Aware Mixed Sparsity Pruning for Large Language Models [42.95555008229016]
そこで本研究では, ヘッセン感度を意識した混合疎水性プルーニング法を, 再トレーニングを必要とせず, 最低50%の疎水性まで適用する方法を提案する。
提案手法の利点は, 空間が極めて高い場合にさらに顕著である。
論文 参考訳(メタデータ) (2023-10-14T05:43:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。