論文の概要: PromptGuard: An Orchestrated Prompting Framework for Principled Synthetic Text Generation for Vulnerable Populations using LLMs with Enhanced Safety, Fairness, and Controllability
- arxiv url: http://arxiv.org/abs/2509.08910v1
- Date: Wed, 10 Sep 2025 18:14:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.098558
- Title: PromptGuard: An Orchestrated Prompting Framework for Principled Synthetic Text Generation for Vulnerable Populations using LLMs with Enhanced Safety, Fairness, and Controllability
- Title(参考訳): PromptGuard: 安全性、公正性、可制御性を向上したLLMを用いた脆弱性集団のための原則的テキスト生成のためのオーケストレーションプロンプトフレームワーク
- Authors: Tung Vu, Lam Nguyen, Quynh Dao,
- Abstract要約: VulnGuard Promptは、現実世界のデータ駆動コントラスト学習による有害な情報生成を防止するハイブリッド技術である。
PromptGuardは、入力分類、VulnGuard Prompting、倫理原則統合、外部ツールインタラクション、ユーザーシステムインタラクションの6つのコアモジュールを編成する。
本稿では,収束証明,情報理論を用いた脆弱性解析,理論的検証フレームワークなどを含む包括的数学的形式化を提案する。
- 参考スコア(独自算出の注目度): 0.9131552057693698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of Large Language Models (LLMs) in real-world applications poses unprecedented risks of generating harmful, biased, or misleading information to vulnerable populations including LGBTQ+ individuals, single parents, and marginalized communities. While existing safety approaches rely on post-hoc filtering or generic alignment techniques, they fail to proactively prevent harmful outputs at the generation source. This paper introduces PromptGuard, a novel modular prompting framework with our breakthrough contribution: VulnGuard Prompt, a hybrid technique that prevents harmful information generation using real-world data-driven contrastive learning. VulnGuard integrates few-shot examples from curated GitHub repositories, ethical chain-of-thought reasoning, and adaptive role-prompting to create population-specific protective barriers. Our framework employs theoretical multi-objective optimization with formal proofs demonstrating 25-30% analytical harm reduction through entropy bounds and Pareto optimality. PromptGuard orchestrates six core modules: Input Classification, VulnGuard Prompting, Ethical Principles Integration, External Tool Interaction, Output Validation, and User-System Interaction, creating an intelligent expert system for real-time harm prevention. We provide comprehensive mathematical formalization including convergence proofs, vulnerability analysis using information theory, and theoretical validation framework using GitHub-sourced datasets, establishing mathematical foundations for systematic empirical research.
- Abstract(参考訳): 現実世界の応用におけるLarge Language Models(LLMs)の拡散は、LGBTQ+の個人、単一親、辺境化コミュニティを含む脆弱な集団に有害、偏見、あるいは誤った情報を生み出すという前例のないリスクをもたらす。
既存の安全手法はポストホックフィルタやジェネリックアライメント技術に依存しているが、生成元における有害な出力を積極的に防止することができない。
VulnGuard Promptは,実世界のデータ駆動コントラスト学習を用いた有害な情報生成を防止するハイブリッド技術である。
VulnGuardは、キュレートされたGitHubリポジトリや倫理的連鎖推論、適応的なロールプロンプトなど、いくつかの例を統合して、人口固有の保護障壁を作成している。
このフレームワークは, エントロピー境界とパレート最適性による25~30%の分析的害軽減を示す形式証明を用いた理論的多目的最適化を用いている。
PromptGuardは、入力分類、VulnGuard Prompting、倫理原則統合、外部ツールインタラクション、出力バリデーション、ユーザシステムインタラクションの6つのコアモジュールを編成し、リアルタイムの害防止のためのインテリジェントなエキスパートシステムを作成する。
我々は、収束証明、情報理論を用いた脆弱性分析、GitHubのソースデータセットを用いた理論的検証フレームワークを含む包括的な数学的フォーマル化を行い、体系的な経験的研究のための数学的基礎を確立する。
関連論文リスト
- BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。
SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。
SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-07-29T17:39:48Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - PR-Attack: Coordinated Prompt-RAG Attacks on Retrieval-Augmented Generation in Large Language Models via Bilevel Optimization [13.751251342738225]
大規模言語モデル(LLM)は、幅広いアプリケーションで顕著な性能を示している。
それらはまた、時代遅れの知識や幻覚への感受性のような固有の制限も示している。
近年の取り組みはRAGベースのLLMのセキュリティに重点を置いているが、既存の攻撃方法は3つの重大な課題に直面している。
本稿では,少数の有毒テキストを知識データベースに導入する新しい最適化型攻撃であるPrompt-RAGアタック(PR-アタック)を提案する。
論文 参考訳(メタデータ) (2025-04-10T13:09:50Z) - TrustRAG: Enhancing Robustness and Trustworthiness in Retrieval-Augmented Generation [31.231916859341865]
TrustRAGは、生成のために取得される前に、悪意のある、無関係なコンテンツを体系的にフィルタリングするフレームワークである。
TrustRAGは、検索精度、効率、攻撃抵抗を大幅に改善する。
論文 参考訳(メタデータ) (2025-01-01T15:57:34Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。