論文の概要: Consensus Sampling for Safer Generative AI
- arxiv url: http://arxiv.org/abs/2511.09493v1
- Date: Thu, 13 Nov 2025 01:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.594598
- Title: Consensus Sampling for Safer Generative AI
- Title(参考訳): 安全な生成AIのためのコンセンサスサンプリング
- Authors: Adam Tauman Kalai, Yael Tauman Kalai, Or Zamir,
- Abstract要約: AI安全性に対する多くのアプローチは、モデル出力やアクティベーションの検査に依存している。
複数の生成モデルの集約を通じて安全性を高める補完的アーキテクチャに依存しないアプローチを提案する。
我々は、$k$モデルとプロンプトを与えられた場合、$k$モデルの最も安全な$s$の平均リスクと競合するリスクを達成するコンセンサスサンプリングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.93965818386567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many approaches to AI safety rely on inspecting model outputs or activations, yet certain risks are inherently undetectable by inspection alone. We propose a complementary, architecture-agnostic approach that enhances safety through the aggregation of multiple generative models, with the aggregated model inheriting its safety from the safest subset of a given size among them. Specifically, we present a consensus sampling algorithm that, given $k$ models and a prompt, achieves risk competitive with the average risk of the safest $s$ of the $k$ models, where $s$ is a chosen parameter, while abstaining when there is insufficient agreement between them. The approach leverages the models' ability to compute output probabilities, and we bound the probability of abstention when sufficiently many models are safe and exhibit adequate agreement. The algorithm is inspired by the provable copyright protection algorithm of Vyas et al. (2023). It requires some overlap among safe models, offers no protection when all models are unsafe, and may accumulate risk over repeated use. Nonetheless, our results provide a new, model-agnostic approach for AI safety by amplifying safety guarantees from an unknown subset of models within a collection to that of a single reliable model.
- Abstract(参考訳): AI安全性に対する多くのアプローチは、モデル出力やアクティベーションの検査に依存している。
本稿では,複数の生成モデルの集約による安全性の向上を図った補完的アーキテクチャに依存しない手法を提案する。
具体的には、$k$モデルとプロンプトが与えられた場合、$k$モデルの平均的なリスクと、$s$が選択されたパラメータの最も安全なリスクとを競合し、それらの間の合意が不十分な場合を回避できるようなコンセンサスサンプリングアルゴリズムを提案する。
この手法はモデルが出力確率を計算する能力を利用しており、十分に多くのモデルが安全であり、十分な一致を示す場合の停止確率を制限している。
このアルゴリズムは、Vyas et al (2023)の証明可能な著作権保護アルゴリズムにインスパイアされている。
安全なモデル間で多少の重複が必要であり、すべてのモデルが安全ではない場合に保護を提供しず、繰り返しの使用よりもリスクを蓄積する可能性がある。
それにもかかわらず、我々の結果は、コレクション内の未知のモデルのサブセットから単一の信頼性モデルへの安全性保証を増幅することにより、AIの安全性に対する新しいモデルに依存しないアプローチを提供する。
関連論文リスト
- Calibrated Predictive Lower Bounds on Time-to-Unsafe-Sampling in LLMs [19.045128057653784]
我々は、生成モデルのための新しい安全対策である、時間対安全サンプリングを導入する。
安全でない出力は、よく整列されたモデルではまれであるため、事実上のサンプリング予算では観測されないことがある。
本稿では,厳密なカバレッジ保証付きプロンプトの時間とアンセーフサンプリングに基づいて,低予測境界(LPB)を構築するための新しいキャリブレーション手法を提案する。
論文 参考訳(メタデータ) (2025-06-16T15:21:25Z) - Counterfactual Explanations for Model Ensembles Using Entropic Risk Measures [7.959080260803575]
対実的な説明は、機械学習モデルで異なる結果に変換できる入力の最小限の変化を示している。
本稿では,エントロピー的リスク尺度の観点から,モデルアンサンブルの正当性を見出すための新しい戦略を提案する。
リスク回避の度合いによって, 対効果のコスト(努力)とアンサンブルの妥当性のトレードオフについて検討する。
論文 参考訳(メタデータ) (2025-03-11T00:25:28Z) - Uncertainty-Aware Decoding with Minimum Bayes Risk [70.6645260214115]
予測されたリスクに応じてモデル生成を選択する最小ベイズリスク復号法を,原理化された不確実性認識復号法に一般化する方法を示す。
この修正された予測リスクは、出力の選択と生成をいつ中止するかの判断の両方に有用であり、オーバーヘッドを発生させることなく改善を提供できることを示す。
論文 参考訳(メタデータ) (2025-03-07T10:55:12Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - PROSAC: Provably Safe Certification for Machine Learning Models under Adversarial Attacks [22.30471086955775]
最先端の機械学習モデルは、敵の摂動によって深刻な危険にさらされる可能性がある。
本稿では,敵対的攻撃が存在する場合に,機械学習モデルの性能を証明するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-04T22:45:20Z) - Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? [52.238883592674696]
Ring-A-Bellは、T2I拡散モデルのためのモデルに依存しないレッドチームツールである。
これは、不適切なコンテンツの生成に対応する拡散モデルに対する問題的プロンプトを特定する。
この結果から,安全プロンプトベンチマークの操作により,既存の安全メカニズムを回避できると考えられるプロンプトを変換できることが示唆された。
論文 参考訳(メタデータ) (2023-10-16T02:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。