論文の概要: SafeGPT: Preventing Data Leakage and Unethical Outputs in Enterprise LLM Use
- arxiv url: http://arxiv.org/abs/2601.06366v1
- Date: Sat, 10 Jan 2026 00:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.775949
- Title: SafeGPT: Preventing Data Leakage and Unethical Outputs in Enterprise LLM Use
- Title(参考訳): SafeGPT: エンタープライズLLMにおけるデータ漏洩と非倫理的アウトプットの防止
- Authors: Pratyush Desai, Luoxi Tang, Yuqiao Meng, Zhaohan Xi,
- Abstract要約: 本稿では,両面ガードレールシステムであるSafeGPTを提案する。
SafeGPTは、満足度を維持しながら、データ漏洩リスクとバイアスアウトプットを効果的に低減する。
- 参考スコア(独自算出の注目度): 3.914632811815449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are transforming enterprise workflows but introduce security and ethics challenges when employees inadvertently share confidential data or generate policy-violating content. This paper proposes SafeGPT, a two-sided guardrail system preventing sensitive data leakage and unethical outputs. SafeGPT integrates input-side detection/redaction, output-side moderation/reframing, and human-in-the-loop feedback. Experiments demonstrate SafeGPT effectively reduces data leakage risk and biased outputs while maintaining satisfaction.
- Abstract(参考訳): 大規模言語モデル(LLM)は、企業ワークフローを変革しているが、従業員が故意に機密データを共有したり、ポリシーに違反するコンテンツを生成する場合、セキュリティと倫理の課題を導入している。
本稿では,両面ガードレールシステムであるSafeGPTを提案する。
SafeGPTはインプット側検出/リアクション、出力側モデレーション/リフレーミング、ヒューマン・イン・ザ・ループフィードバックを統合している。
SafeGPTは、満足度を維持しながら、データ漏洩リスクとバイアスアウトプットを効果的に低減する。
関連論文リスト
- Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Gradient Surgery for Safe LLM Fine-Tuning [16.652518818576425]
ファインチューニング・アズ・ア・サービス(Funture-tuning-as-a-Service)は、ユーザのファインチューニングデータセットにいくつかの悪意のあるサンプルを混在させて、Large Language Models(LLM)の安全性アライメントを損なう重大な脆弱性を導入する。
既存のソリューションは有害比に非常に敏感であり、防御は有害比が増加するにつれて著しく低下する。
そこで本研究では,勾配手術を応用したSafeGradを提案する。
論文 参考訳(メタデータ) (2025-08-10T04:13:41Z) - Towards Safety Reasoning in LLMs: AI-agentic Deliberation for Policy-embedded CoT Data Creation [70.62656296780074]
本稿では,新しいデータ生成法であるAIDSAFE(Agenic Iterative Deliberation for Safety Reasoning)を提案する。
AIDSAFEにおけるデータリファインダーの段階は、反復的、冗長的、詐欺的思考を排除し、高品質なアウトプットを保証する。
本評価は, AIDSAFEによるCoTsが, より優れた政策順守と推論品質を実現することを示すものである。
論文 参考訳(メタデータ) (2025-05-27T21:34:40Z) - Safe Delta: Consistently Preserving Safety when Fine-Tuning LLMs on Diverse Datasets [49.412887135146725]
大規模言語モデル(LLM)の安全性を考慮したポストトレーニング防衛手法であるSafe Deltaを提案する。
当社のアプローチは、良質なデータセットからのユーティリティゲインが影響を受けないことを保証しながら、安全を継続的に維持します。
論文 参考訳(メタデータ) (2025-05-17T15:01:07Z) - Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset [4.522849055040843]
この研究は、Helpful and Harmless データセットを Anthropic で監査した。
本研究は,大規模言語モデルにおける安全性軽減のための,よりニュアンスで文脈に敏感なアプローチの必要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-11-12T23:43:20Z) - SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
効果を28個の完全に解釈可能な重みパラメータを使って有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Secure and Verifiable Data Collaboration with Low-Cost Zero-Knowledge
Proofs [30.260427020479536]
本稿では,セキュアかつ検証可能なデータコラボレーションのための新しい高効率ソリューションRiseFLを提案する。
まず,ZKP生成と検証のコストを大幅に削減する確率論的整合性検査法を提案する。
第3に,ビザンチンのロバスト性を満たすハイブリッドなコミットメントスキームを設計し,性能を向上する。
論文 参考訳(メタデータ) (2023-11-26T14:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。