論文の概要: PoseGuard: Pose-Guided Generation with Safety Guardrails
- arxiv url: http://arxiv.org/abs/2508.02476v1
- Date: Mon, 04 Aug 2025 14:42:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 13:20:47.082394
- Title: PoseGuard: Pose-Guided Generation with Safety Guardrails
- Title(参考訳): PoseGuard:安全ガードレールを備えたPose-Guidedジェネレーション
- Authors: Kongxin Wang, Jie Zhang, Peigui Qi, Kunsheng Tang, Tianwei Zhang, Wenbo Zhou,
- Abstract要約: PoseGuardは、ポーズ誘導世代のための安全アライメントフレームワークである。
悪意あるポーズに遭遇した際の出力品質を低下させることで、安全でない世代を抑えるように設計されている。
良性入力のための高忠実度出力を維持する。
- 参考スコア(独自算出の注目度): 18.209214277958164
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pose-guided video generation has become a powerful tool in creative industries, exemplified by frameworks like Animate Anyone. However, conditioning generation on specific poses introduces serious risks, such as impersonation, privacy violations, and NSFW content creation. To address these challenges, we propose $\textbf{PoseGuard}$, a safety alignment framework for pose-guided generation. PoseGuard is designed to suppress unsafe generations by degrading output quality when encountering malicious poses, while maintaining high-fidelity outputs for benign inputs. We categorize unsafe poses into three representative types: discriminatory gestures such as kneeling or offensive salutes, sexually suggestive poses that lead to NSFW content, and poses imitating copyrighted celebrity movements. PoseGuard employs a dual-objective training strategy combining generation fidelity with safety alignment, and uses LoRA-based fine-tuning for efficient, parameter-light updates. To ensure adaptability to evolving threats, PoseGuard supports pose-specific LoRA fusion, enabling flexible and modular updates when new unsafe poses are identified. We further demonstrate the generalizability of PoseGuard to facial landmark-guided generation. Extensive experiments validate that PoseGuard effectively blocks unsafe generations, maintains generation quality for benign inputs, and remains robust against slight pose variations.
- Abstract(参考訳): Animate Anyoneのようなフレームワークで例示されるように、偽誘導ビデオ生成はクリエイティブ産業において強力なツールとなっている。
しかし、特定のポーズに対する条件付け生成は、偽造、プライバシー侵害、NSFWコンテンツ作成などの重大なリスクをもたらす。
これらの課題に対処するために、ポーズ誘導生成のための安全アライメントフレームワークである$\textbf{PoseGuard}$を提案する。
PoseGuardは、悪意のあるポーズに遭遇した際の出力品質を低下させ、良質な入力に対する高忠実な出力を維持することで、安全でない世代を抑制するように設計されている。
安全でないポーズは、ひざまずきや不快な敬礼などの差別的なジェスチャー、NSFWコンテンツにつながる性的なポーズ、著作権のある有名人の動きを模倣するポーズの3つに分類する。
PoseGuardは、生成忠実度と安全性アライメントを組み合わせた二重目的トレーニング戦略を採用し、効率的なパラメータライト更新にLoRAベースの微調整を使用している。
脅威の進化に対する適応性を確保するため、PoseGuardは、ポーズ固有のLoRA融合をサポートし、新しい安全でないポーズが特定されると、フレキシブルでモジュール化された更新を可能にする。
さらに、顔のランドマーク誘導世代に対するPoseGuardの一般化可能性を示す。
大規模な実験は、PoseGuardが安全でない世代を効果的にブロックし、良質な入力の生成品質を維持し、わずかなポーズのバリエーションに対して堅牢であることを検証する。
関連論文リスト
- Protego: User-Centric Pose-Invariant Privacy Protection Against Face Recognition-Induced Digital Footprint Exposure [4.752324012811179]
Clearview AIやPIMEyesのようなサービスは、誰でも顔写真をアップロードして、その人物に関連する大量のオンラインコンテンツを検索できる。
これはID推論を可能にするだけでなく、ソーシャルメディアの活動、プライベート写真、ニュースレポートなどのデジタルフットプリントを、同意なしに公開する。
本稿では,ユーザ中心のプライバシ保護手法であるProtegoを提案する。
論文 参考訳(メタデータ) (2025-08-04T04:03:01Z) - Personalized Safety Alignment for Text-to-Image Diffusion Models [5.768305270318872]
生成モデルにおける安全行動に対するユーザ固有の制御を可能にするフレームワークを提案する。
ユーザ固有の安全設定をキャプチャする新しいデータセットであるSageを導入する。
実験により、PSAは有害なコンテンツ抑制において既存の方法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-08-02T02:23:20Z) - GIFT: Gradient-aware Immunization of diffusion models against malicious Fine-Tuning with safe concepts retention [5.429335132446078]
GIFT: 拡散モデルを守るグラディエント対応免疫技術。
論文 参考訳(メタデータ) (2025-07-18T01:47:07Z) - Chasing Moving Targets with Online Self-Play Reinforcement Learning for Safer Language Models [55.28518567702213]
従来の言語モデル(LM)の安全性アライメントは、リアクティブで非結合な手順に依存している。
このシーケンシャルなアプローチはミスマッチを生み出し、攻撃者は時代遅れの防御に過度に適合する一方、守備側は出現する脅威に常に遅れをとどめている。
我々は,攻撃者と防御エージェントが継続的なインタラクションを通じて共進化するオンラインセルフプレイ強化学習アルゴリズムであるSelf-RedTeamを提案する。
論文 参考訳(メタデータ) (2025-06-09T06:35:12Z) - PersGuard: Preventing Malicious Personalization via Backdoor Attacks on Pre-trained Text-to-Image Diffusion Models [51.458089902581456]
特定の画像の悪質なパーソナライズを防ぐ新しいバックドアベースのアプローチであるPersGuardを紹介する。
我々の手法は既存の技術よりも優れており、プライバシーと著作権保護に対するより堅牢なソリューションを提供する。
論文 参考訳(メタデータ) (2025-02-22T09:47:55Z) - Distorting Embedding Space for Safety: A Defense Mechanism for Adversarially Robust Diffusion Models [4.5656369638728656]
Distorting Embedding Space (DES) はテキストエンコーダベースの防御機構である。
DESは、アンセーフプロンプトを用いてテキストエンコーダから抽出されたアンセーフな埋め込みを、慎重に計算された安全な埋め込み領域に変換する。
DESはまた、敵攻撃に対する堅牢性を高めるために、中立的な埋め込みと整列することで、即時ヌードを用いて抽出されたヌード埋め込みを中和する。
論文 参考訳(メタデータ) (2025-01-31T04:14:05Z) - SC-Pro: Training-Free Framework for Defending Unsafe Image Synthesis Attack [13.799517170191919]
最近の研究では、安全チェッカーは敵の攻撃に対して脆弱性があることが示されており、NSFW(Not Safe For Work)イメージを生成することができる。
NSFW画像を生成する敵攻撃に対して容易に防御できる訓練不要のフレームワークであるSC-Proを提案する。
論文 参考訳(メタデータ) (2025-01-09T16:43:21Z) - SafeCFG: Controlling Harmful Features with Dynamic Safe Guidance for Safe Generation [125.0706666755989]
拡散モデル (DM) はテキストから画像へのタスクにおいて例外的な性能を示した。
CFGを介して画像生成プロセスを悪意的に導くことにより、より有害な画像を生成するために使用できる。
動的安全誘導を用いて有害な特徴を適応的に制御するSafeCFGを提案する。
論文 参考訳(メタデータ) (2024-12-20T16:40:11Z) - Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction [88.18235230849554]
大規模で未処理のデータセットでマルチモーダル生成モデルをトレーニングすることで、ユーザは有害で安全でない、議論の余地のない、文化的に不適切なアウトプットにさらされる可能性がある。
我々は、安全な埋め込みと、より安全な画像を生成するために、潜伏空間の重み付け可能な総和による修正拡散プロセスを活用する。
安全と検閲のトレードオフを特定し、倫理的AIモデルの開発に必要な視点を提示します。
論文 参考訳(メタデータ) (2024-11-21T09:47:13Z) - ID-Guard: A Universal Framework for Combating Facial Manipulation via Breaking Identification [60.73617868629575]
深層学習に基づく顔操作の誤用は、公民権に重大な脅威をもたらす。
この不正行為を防止するため、操作過程を妨害する積極的な防御法が提案されている。
本稿では,IDガード(ID-Guard)と呼ばれる顔の操作に対処するための普遍的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-20T09:30:08Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Divide-and-Conquer Attack: Harnessing the Power of LLM to Bypass Safety Filters of Text-to-Image Models [1.5408065585641535]
我々は、最先端TTIモデルの安全フィルタを回避するために、Divide-and-Conquer Attackを導入する。
我々はLLMを効果的に誘導するアタック・ヘルパーを設計し、非倫理的な描画意図を曖昧な記述に分解する。
本研究は,手工芸法や反復的TTIモデルクエリよりも,より深刻なセキュリティ上の意味を持つ。
論文 参考訳(メタデータ) (2023-12-12T10:04:43Z) - AdaptGuard: Defending Against Universal Attacks for Model Adaptation [129.2012687550069]
モデル適応アルゴリズムにおいて、ソースドメインから転送されるユニバーサルアタックに対する脆弱性について検討する。
本稿では,モデル適応アルゴリズムの安全性を向上させるために,AdaptGuardというモデル前処理フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-19T07:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。