論文の概要: Don't Walk the Line: Boundary Guidance for Filtered Generation
- arxiv url: http://arxiv.org/abs/2510.11834v1
- Date: Mon, 13 Oct 2025 18:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.062889
- Title: Don't Walk the Line: Boundary Guidance for Filtered Generation
- Title(参考訳): 線を歩いてはいけない: フィルタ生成のための境界ガイダンス
- Authors: Sarah Ball, Andreas Haupt,
- Abstract要約: そこで本稿では,分類器のマージンから独立して生成する強化学習ファインチューニング手法である境界誘導法を提案する。
ジェイルブレイクと曖昧なプロンプトのベンチマークでは、境界ガイダンスは出力の安全性と実用性の両方を改善している。
- 参考スコア(独自算出の注目度): 0.21962802649741361
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative models are increasingly paired with safety classifiers that filter harmful or undesirable outputs. A common strategy is to fine-tune the generator to reduce the probability of being filtered, but this can be suboptimal: it often pushes the model toward producing samples near the classifier's decision boundary, increasing both false positives and false negatives. We propose Boundary Guidance, a reinforcement learning fine-tuning method that explicitly steers generation away from the classifier's margin. On a benchmark of jailbreak and ambiguous prompts, Boundary Guidance improves both the safety and the utility of outputs, as judged by LLM-as-a-Judge evaluations. Comprehensive ablations across model scales and reward designs demonstrate the robustness of our approach.
- Abstract(参考訳): 生成モデルは、有害または望ましくない出力をフィルタリングする安全分類器とますますペアになってきています。
一般的な戦略は、ジェネレータを微調整してフィルターされる確率を下げることであるが、これは準最適であり、しばしば分類器の判定境界付近でサンプルを生成するようモデルを押し上げ、偽陽性と偽陰性の両方を増加させる。
そこで本稿では,分類器のマージンから独立して生成する強化学習ファインチューニング手法である境界誘導法を提案する。
ジェイルブレイクと曖昧なプロンプトのベンチマークでは、境界ガイダンスは、LCM-as-a-Judge評価によって判断されるように、アウトプットの安全性と実用性の両方を改善している。
モデルスケールと報酬設計の包括的な改善は、私たちのアプローチの堅牢性を示しています。
関連論文リスト
- A Generative Approach to LLM Harmfulness Mitigation with Red Flag Tokens [26.119521867045616]
モデルの語彙を特別な赤いフラグトークンで拡張することを提案する。
有害なコンテンツが生成または差し迫ったときに、このトークンを挿入するようにモデルをトレーニングします。
このアプローチは,既存の安全技術と補完するものだ。
論文 参考訳(メタデータ) (2025-02-22T21:48:48Z) - Conformal Generative Modeling with Improved Sample Efficiency through Sequential Greedy Filtering [55.15192437680943]
生成モデルは出力に対する厳密な統計的保証を欠いている。
厳密な統計的保証を満たす予測セットを生成する逐次共形予測法を提案する。
このことは、高い確率で予測セットが少なくとも1つの許容可能な(または有効な)例を含むことを保証している。
論文 参考訳(メタデータ) (2024-10-02T15:26:52Z) - Outlier-robust Kalman Filtering through Generalised Bayes [45.51425214486509]
我々は、状態空間モデルにおけるオンラインフィルタリングのための新しい、確実に堅牢でクローズドなベイズ更新ルールを導出する。
提案手法は, より少ない計算コストで, 他の頑健なフィルタリング手法に適合し, 性能が向上する。
論文 参考訳(メタデータ) (2024-05-09T09:40:56Z) - Confidence-aware Training of Smoothed Classifiers for Certified
Robustness [75.95332266383417]
我々は「ガウス雑音下での精度」を、入力に対する対角的ロバスト性の容易に計算可能なプロキシとして利用する。
実験の結果, 提案手法は, 最先端の訓練手法による信頼性向上を継続的に示すことがわかった。
論文 参考訳(メタデータ) (2022-12-18T03:57:12Z) - Orthogonal Jacobian Regularization for Unsupervised Disentanglement in
Image Generation [64.92152574895111]
直交ジャコビアン正規化法(OroJaR)を提案する。
提案手法は, 絡み合った, 制御可能な画像生成に有効であり, 最先端の手法に対して好適に機能する。
論文 参考訳(メタデータ) (2021-08-17T15:01:46Z) - Online and Distribution-Free Robustness: Regression and Contextual
Bandits with Huber Contamination [29.85468294601847]
線形回帰と文脈的帯域幅という2つの古典的高次元オンライン学習問題を再考する。
従来の手法が失敗した場合にアルゴリズムが成功することを示す。
論文 参考訳(メタデータ) (2020-10-08T17:59:05Z) - Extensions and limitations of randomized smoothing for robustness
guarantees [13.37805637358556]
平滑化対策の相違が最終ロバスト性保証にどのように影響するかを検討する。
我々は,任意の$ell_p$$pinmathbbN_>0$に対するロバスト性を証明する手法を開発した。
論文 参考訳(メタデータ) (2020-06-07T17:22:32Z) - Preventing Posterior Collapse with Levenshtein Variational Autoencoder [61.30283661804425]
我々は,エビデンス・ロー・バウンド(ELBO)を最適化し,後部崩壊を防止できる新しい目的に置き換えることを提案する。
本稿では,Levenstein VAEが後方崩壊防止のための代替手法よりも,より情報的な潜伏表現を生成することを示す。
論文 参考訳(メタデータ) (2020-04-30T13:27:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。