論文の概要: Safety-Guided Flow (SGF): A Unified Framework for Negative Guidance in Safe Generation
- arxiv url: http://arxiv.org/abs/2603.13300v1
- Date: Mon, 02 Mar 2026 07:31:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.281908
- Title: Safety-Guided Flow (SGF): A Unified Framework for Negative Guidance in Safe Generation
- Title(参考訳): 安全誘導流(SGF):安全生成における負の誘導のための統一的枠組み
- Authors: Mingyu Kim, Young-Heon Kim, Mijung Park,
- Abstract要約: 本稿では,画像生成タスクに対する最大平均離散性(MMD)ポテンシャルを用いた統一確率的フレームワークを提案する。
我々は制御バリア関数解析を利用して、負のガイダンスが強くなければならない臨界時間窓の存在を正当化する。
我々は,いくつかの現実的な安全な生成シナリオにおいて,統合されたフレームワークを評価し,否定的なガイダンスがデノナイジングプロセスの初期段階で適用されるべきであることを確認した。
- 参考スコア(独自算出の注目度): 2.5489046505746704
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Safety mechanisms for diffusion and flow models have recently been developed along two distinct paths. In robot planning, control barrier functions are employed to guide generative trajectories away from obstacles at every denoising step by explicitly imposing geometric constraints. In parallel, recent data-driven, negative guidance approaches have been shown to suppress harmful content and promote diversity in generated samples. However, they rely on heuristics without clearly stating when safety guidance is actually necessary. In this paper, we first introduce a unified probabilistic framework using a Maximum Mean Discrepancy (MMD) potential for image generation tasks that recasts both Shielded Diffusion and Safe Denoiser as instances of our energy-based negative guidance against unsafe data samples. Furthermore, we leverage control-barrier functions analysis to justify the existence of a critical time window in which negative guidance must be strong; outside of this window, the guidance should decay to zero to ensure safe and high-quality generation. We evaluate our unified framework on several realistic safe generation scenarios, confirming that negative guidance should be applied in the early stages of the denoising process for successful safe generation.
- Abstract(参考訳): 拡散流モデルのための安全機構は、2つの異なる経路に沿って開発されている。
ロボット計画においては、幾何的制約を明示的に課すことで、生成的軌道を障害物から遠ざけるために制御障壁関数が用いられる。
対照的に、最近のデータ駆動型負のガイダンスアプローチは有害なコンテンツを抑制し、生成されたサンプルの多様性を促進することが示されている。
しかし、安全ガイダンスが実際にいつ必要かは明確に述べずに、ヒューリスティックスに依存している。
本稿では、まず、安全でないデータサンプルに対するエネルギーベースの負のガイダンスの例として、シールド拡散とセーフデノイザの両方をリキャストする画像生成タスクに対して、最大平均離散性(MMD)ポテンシャルを用いた統一確率フレームワークを導入する。
さらに、制御バリア関数解析を利用して、負の誘導が強くなければならない臨界時間窓の存在を正当化する。
我々は,複数の現実的な安全な生成シナリオにおいて統一された枠組みを評価し,安全生成を成功させるために,デノナイズプロセスの初期段階において負のガイダンスを適用するべきであることを確認した。
関連論文リスト
- HomeGuard: VLM-based Embodied Safeguard for Identifying Contextual Risk in Household Task [42.665798473119516]
CG-CoT(Context-Guided Chain-of-Thought)を特徴とするアーキテクチャ非依存型セーフガードを提案する。
CG-CoTは、リスクアセスメントをアクティブな知覚に分解し、相互作用対象や関連する空間近傍への注意を順次固定する。
実験により、我々のモデルであるHomeGuardは安全性を大幅に向上し、ベースモデルと比較してリスクマッチ率を30%以上改善することが示された。
論文 参考訳(メタデータ) (2026-03-15T13:09:43Z) - Provably Safe Generative Sampling with Constricting Barrier Functions [1.8377602530643375]
フローベース生成モデルは複雑なデータ分布の学習において顕著な成功を収めた。
本稿では,事前学習した生成モデルのオンラインシールドとして機能する安全フィルタリングフレームワークを提案する。
本機構は, 各サンプリングステップにおいて, 元のモデルからの分布シフトを最小限に抑えながら, 安全なサンプリングを保証する。
論文 参考訳(メタデータ) (2026-02-24T23:06:58Z) - BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Preemptive Detection and Steering of LLM Misalignment via Latent Reachability [8.01833277608166]
大規模言語モデル(LLM)は現在、日常的なツールで広く普及しており、有害なコンテンツを生成する傾向について緊急の安全上の懸念を提起している。
我々は, LLM推論に制御理論安全ツールを提供する, 到達可能性に基づくフレームワークであるBRT-Alignを提案する。
論文 参考訳(メタデータ) (2025-09-25T20:15:29Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization [22.225141381422873]
有害なコンテンツを生成するテキストと画像の拡散モデルに対する懸念が高まっている。
概念アンラーニングや安全ガイダンスのようなポストホックモデルの介入技術は、これらのリスクを軽減するために開発されている。
本稿では,自己診断と詳細な自己制御を行うための安全生成フレームワークであるDector-and-Guide(DAG)を提案する。
DAGは最先端の安全な生成性能を実現し、有害性軽減とテキスト追跡性能を現実のプロンプトでバランスさせる。
論文 参考訳(メタデータ) (2025-03-19T13:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。