論文の概要: SafeGen: Embedding Ethical Safeguards in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2512.12501v1
- Date: Sun, 14 Dec 2025 00:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.286013
- Title: SafeGen: Embedding Ethical Safeguards in Text-to-Image Generation
- Title(参考訳): SafeGen:テキストから画像生成に倫理的保護を埋め込む
- Authors: Dang Phuong Nam, Nguyen Kieu, Pham Thanh Hieu,
- Abstract要約: 本稿では,テキスト・ツー・イメージ生成パイプラインに直接倫理的保護を組み込むフレームワークであるSafeGenを紹介する。
SafeGenは、有害または誤解を招くプロンプトをフィルタリングする微調整テキスト分類器であるBGE-M3と、高忠実でセマンティックに整合した画像を生成する最適化された拡散モデルであるHyper-SDの2つの補完的なコンポーネントを統合している。
ケーススタディでは、SafeGenが安全でないプロンプトをブロックし、包括的な教材を生成し、学術的完全性を補強する実践的な影響を説明している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Artificial Intelligence (AI) has created unprecedented opportunities for creative expression, education, and research. Text-to-image systems such as DALL.E, Stable Diffusion, and Midjourney can now convert ideas into visuals within seconds, but they also present a dual-use dilemma, raising critical ethical concerns: amplifying societal biases, producing high-fidelity disinformation, and violating intellectual property. This paper introduces SafeGen, a framework that embeds ethical safeguards directly into the text-to-image generation pipeline, grounding its design in established principles for Trustworthy AI. SafeGen integrates two complementary components: BGE-M3, a fine-tuned text classifier that filters harmful or misleading prompts, and Hyper-SD, an optimized diffusion model that produces high fidelity, semantically aligned images. Built on a curated multilingual (English- Vietnamese) dataset and a fairness-aware training process, SafeGen demonstrates that creative freedom and ethical responsibility can be reconciled within a single workflow. Quantitative evaluations confirm its effectiveness, with Hyper-SD achieving IS = 3.52, FID = 22.08, and SSIM = 0.79, while BGE-M3 reaches an F1-Score of 0.81. An ablation study further validates the importance of domain-specific fine-tuning for both modules. Case studies illustrate SafeGen's practical impact in blocking unsafe prompts, generating inclusive teaching materials, and reinforcing academic integrity.
- Abstract(参考訳): 生成人工知能(AI)は、創造的な表現、教育、研究のための前例のない機会を生み出している。
DALL.E、Stable Diffusion、Midjourneyなどのテキスト・ツー・イメージシステムでは、アイデアを数秒で視覚に変換できるが、同時に両用ジレンマを提示し、社会的偏見の増幅、高忠実な偽情報の生成、知的財産の侵害といった批判的な倫理的懸念を提起する。
本稿では,テキスト・ツー・イメージ生成パイプラインに直接倫理的保護を組み込むフレームワークであるSafeGenを紹介する。
SafeGenは、有害または誤解を招くプロンプトをフィルタリングする微調整テキスト分類器であるBGE-M3と、高忠実でセマンティックに整合した画像を生成する最適化された拡散モデルであるHyper-SDの2つの補完的なコンポーネントを統合している。
キュレートされた多言語(英語-ベトナム語)データセットとフェアネス対応のトレーニングプロセスに基づいて構築されたSafeGenは、創造的自由と倫理的責任を単一のワークフロー内で調整できることを実証する。
IS = 3.52、FID = 22.08、SSIM = 0.79、BGE-M3は0.81である。
アブレーション研究では、両方のモジュールに対するドメイン固有の微調整の重要性をさらに検証している。
ケーススタディでは、SafeGenが安全でないプロンプトをブロックし、包括的な教材を生成し、学術的完全性を補強する実践的な影響を説明している。
関連論文リスト
- Value-Aligned Prompt Moderation via Zero-Shot Agentic Rewriting for Safe Image Generation [11.663809872664103]
現在の防衛は、生産物を生産品質を犠牲にしたり、高いコストを発生させることなく、人的価値と整合させるのに苦労している。
我々は、より安全でより有用なテキスト・ツー・イメージ・ジェネレーションのためのゼロショットエージェント・フレームワークであるVALORを紹介した。
VALORは、階層化されたプロンプト分析とヒューマンアラインな値推論を統合している。
論文 参考訳(メタデータ) (2025-11-12T09:52:47Z) - SafeGuider: Robust and Practical Content Safety Control for Text-to-Image Models [74.11062256255387]
テキスト・ツー・イメージのモデルは、安全対策を回避し、有害なコンテンツを生成できる敵のプロンプトに対して非常に脆弱である。
SafeGuiderは, 生成品質を損なうことなく, 堅牢な安全制御を実現するための2段階のフレームワークである。
SafeGuiderは攻撃成功率の最小化において例外的な効果を示し、様々な攻撃シナリオで最大速度は5.48%である。
論文 参考訳(メタデータ) (2025-10-05T10:24:48Z) - RespoDiff: Dual-Module Bottleneck Transformation for Responsible & Faithful T2I Generation [14.603824133970798]
RespoDiffは、責任あるテキスト-画像生成のための新しいフレームワークである。
我々のアプローチは、様々なプロンプトにまたがって、責任と意味的コヒーレントな生成を20%改善する。
SDXLのような大型モデルにシームレスに統合され、公正性と安全性が向上する。
論文 参考訳(メタデータ) (2025-09-18T07:48:46Z) - Interleaving Reasoning for Better Text-to-Image Generation [83.69082794730664]
テキストベース思考と画像合成を交互に行うIRG(Interleaving Reasoning Generation)を提案する。
IRGを効果的に訓練するために,2つのサブゴールをターゲットにしたIRGL(Interleaving Reasoning Generation Learning)を提案する。
実験の結果、SoTAの性能はGenEval, WISE, TIIF, GenAI-Bench, OneIG-ENで5~10ポイント向上した。
論文 参考訳(メタデータ) (2025-09-08T17:56:23Z) - Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [16.188657772178747]
本研究では,不適切な概念を迅速に埋め込むことで,テキスト・ツー・イメージモデルの安全性を高めるEmbeded Sanitizer (ES)を提案する。
ESは、その潜在的な有害性を示すプロンプトにおいて各トークンにスコアを割り当てる最初の解釈可能な安全な生成フレームワークである。
論文 参考訳(メタデータ) (2024-11-15T16:29:02Z) - Ethical-Lens: Curbing Malicious Usages of Open-Source Text-to-Image Models [51.69735366140249]
我々はEthical-Lensというフレームワークを紹介した。
Ethical-Lensは、毒性とバイアス次元をまたいだテキストと画像のモデルにおける価値アライメントを保証する。
実験の結果、Ethical-Lensは商業モデルに匹敵するレベルまでアライメント能力を向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T11:38:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。