論文の概要: Towards Provably Secure Generative AI: Reliable Consensus Sampling
- arxiv url: http://arxiv.org/abs/2512.24925v1
- Date: Wed, 31 Dec 2025 15:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.69096
- Title: Towards Provably Secure Generative AI: Reliable Consensus Sampling
- Title(参考訳): 安全な生成AIを目指して - 信頼性の高いコンセンサスサンプリング
- Authors: Yu Cui, Hang Fu, Sicheng Pan, Zhuoyu Sun, Yifei Liu, Yuhong Nie, Bo Ran, Baohan Huang, Xufeng Zhang, Haibin Zhang, Cong Zuo, Licheng Wang,
- Abstract要約: 生成AIセキュリティに関する既存の研究は、経験的経験に基づく攻撃と防御の方法の相互強化によって進められている。
本稿では,超高次対向行動に耐えるために,受容確率をトレースするReliable Consensus Smpling (RCS) という新しいプリミティブを提案する。
RCSは、Consensus Samplingに匹敵するレイテンシを維持しながら、堅牢性とユーティリティを著しく改善する。
- 参考スコア(独自算出の注目度): 21.154724117749243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing research on generative AI security is primarily driven by mutually reinforcing attack and defense methodologies grounded in empirical experience. This dynamic frequently gives rise to previously unknown attacks that can circumvent current detection and prevention. This necessitates the continual updating of security mechanisms. Constructing generative AI with provable security and theoretically controllable risk is therefore necessary. Consensus Sampling (CS) is a promising algorithm toward provably secure AI. It controls risk by leveraging overlap in model output probabilities. However, we find that CS relies on frequent abstention to avoid unsafe outputs, which reduces utility. Moreover, CS becomes highly vulnerable when unsafe models are maliciously manipulated. To address these issues, we propose a new primitive called Reliable Consensus Sampling (RCS), that traces acceptance probability to tolerate extreme adversarial behaviors, improving robustness. RCS also eliminates the need for abstention entirely. We further develop a feedback algorithm to continuously and dynamically enhance the safety of RCS. We provide theoretical guarantees that RCS maintains a controllable risk threshold. Extensive experiments show that RCS significantly improves robustness and utility while maintaining latency comparable to CS. We hope this work contributes to the development of provably secure generative AI.
- Abstract(参考訳): 生成的AIセキュリティに関する既存の研究は、主に経験的な経験に基づく攻撃と防御の方法の相互強化によって進められている。
このダイナミクスはしばしば、現在の検出と防止を回避できる既知の攻撃を引き起こす。
これはセキュリティメカニズムの継続的な更新を必要とする。
したがって、証明可能なセキュリティと理論的に制御可能なリスクで生成AIを構築する必要がある。
Consensus Sampling (CS)は、AIを確実にセキュアにするための有望なアルゴリズムである。
モデル出力確率の重複を利用してリスクを制御する。
しかし、安全でない出力を避けるため、CSは頻繁な禁忌に依存しているため、実用性は低下する。
さらに、安全でないモデルが悪意ある操作を行うと、CSは極めて脆弱になる。
これらの問題に対処するため、我々はReliable Consensus Sampling (RCS)と呼ばれる新しいプリミティブを提案する。
RCSはまた、棄権の必要性を完全に排除する。
さらに,RCSの安全性を継続的に動的に向上するフィードバックアルゴリズムを開発した。
我々はRCSが制御可能なリスク閾値を維持しているという理論的保証を提供する。
大規模な実験により、RCSはCSに匹敵するレイテンシを維持しながら、堅牢性と実用性を大幅に向上することが示された。
この研究が、確実に安全な生成AIの開発に寄与することを願っています。
関連論文リスト
- RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic [56.38397499463889]
視覚言語モデル(VLM)を利用するエージェントは、複雑な現実世界のタスクを実行する能力がますます高まっている。
しかし、安全でない行動を引き起こす可能性のある危険な指示に弱いままである。
提案するRoboSafeは,実行可能述語ベースの安全ロジックを通じて,エージェントを具体化するためのランタイムセーフガードである。
論文 参考訳(メタデータ) (2025-12-24T15:01:26Z) - PropensityBench: Evaluating Latent Safety Risks in Large Language Models via an Agentic Approach [49.14349403242654]
我々は、リスクを伴う行動に関わるモデルの確率を評価する新しいベンチマークフレームワークであるtextbfPropensityBench$を提示する。
私たちのフレームワークには,サイバーセキュリティ,自己増殖,バイオセキュリティ,化学セキュリティという,リスクの高い4つのドメインにまたがる6,648のツールを備えた,5,874のシナリオが含まれています。
オープンソースとプロプライエタリなフロンティアモデル全体で、私たちは9つの不確実性の兆候を発見しました。
論文 参考訳(メタデータ) (2025-11-24T18:46:44Z) - SafeEvalAgent: Toward Agentic and Self-Evolving Safety Evaluation of LLMs [37.82193156438782]
本稿では, エージェント安全評価の新しいパラダイムとして, 継続的かつ自己進化的なプロセスとしてのリフレーミング評価を提案する。
本稿では、構造化されていないポリシー文書を自律的に取り込み、包括的な安全ベンチマークを生成し、永続的に進化させる、新しいマルチエージェントフレームワークSafeEvalAgentを提案する。
本実験はSafeEvalAgentの有効性を実証し,評価が強まるにつれてモデルの安全性が一貫した低下を示す。
論文 参考訳(メタデータ) (2025-09-30T11:20:41Z) - Secure mmWave Beamforming with Proactive-ISAC Defense Against Beam-Stealing Attacks [6.81194385663614]
ミリ波通信システム(mmWave)は、高度なビームステアリング攻撃に対する感受性が増大している。
本稿では,高度深層強化学習(DRL)エージェントを有効かつ適応的な防御に利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T19:30:09Z) - Thought Purity: A Defense Framework For Chain-of-Thought Attack [16.56580534764132]
本稿では,悪意のあるコンテンツに対する抵抗性を高めつつ,操作効率を保ちつつ,その耐性を高めるフレームワークであるThought Purityを提案する。
本手法は,強化学習型推論システムにおけるCoTA脆弱性に対する最初の包括的防御機構を確立する。
論文 参考訳(メタデータ) (2025-07-16T15:09:13Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Information Retrieval Induced Safety Degradation in AI Agents [52.15553901577888]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索可能なエージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索可能でますます自律的なAIシステムの公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - Anomalous State Sequence Modeling to Enhance Safety in Reinforcement Learning [0.0]
本稿では,RLの安全性を高めるために,異常状態列を利用した安全強化学習(RL)手法を提案する。
自動運転車を含む複数の安全クリティカルな環境の実験において、我々のソリューションアプローチはより安全なポリシーをうまく学習する。
論文 参考訳(メタデータ) (2024-07-29T10:30:07Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。