論文の概要: Likelihood hacking in probabilistic program synthesis
- arxiv url: http://arxiv.org/abs/2603.24126v1
- Date: Wed, 25 Mar 2026 09:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.230841
- Title: Likelihood hacking in probabilistic program synthesis
- Title(参考訳): 確率的プログラム合成におけるいいね!
- Authors: Jacek Karwowski, Younesse Kaddar, Zihuiwen Ye, Nikolay Malkin, Sam Staton,
- Abstract要約: コア確率型プログラミング言語(PPL)における故障可能性ハッキング(LH)の形式化
これらの条件を満たす安全な言語フラグメント$mathcalL_textsafe$は、潜在的なハックプログラムを生成できないことを示す。
- 参考スコア(独自算出の注目度): 14.41543712022866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When language models are trained by reinforcement learning (RL) to write probabilistic programs, they can artificially inflate their marginal-likelihood reward by producing programs whose data distribution fails to normalise instead of fitting the data better. We call this failure likelihood hacking (LH). We formalise LH in a core probabilistic programming language (PPL) and give sufficient syntactic conditions for its prevention, proving that a safe language fragment $\mathcal{L}_{\text{safe}}$ satisfying these conditions cannot produce likelihood-hacking programs. Empirically, we show that GRPO-trained models generating PyMC code discover LH exploits within the first few training steps, driving violation rates well above the untrained-model baseline. We implement $\mathcal{L}_{\text{safe}}$'s conditions as $\texttt{SafeStan}$, a LH-resistant modification of Stan, and show empirically that it prevents LH under optimisation pressure. These results show that language-level safety constraints are both theoretically grounded and effective in practice for automated Bayesian model discovery.
- Abstract(参考訳): 言語モデルが確率的プログラムを書くために強化学習(RL)によって訓練されている場合、データ分散がデータに適合する代わりに正規化に失敗するプログラムを生成することで、その限界的な報酬を人工的に膨らませることができる。
私たちはこの失敗の可能性ハッキング(LH)と呼んでいる。
我々は、LHをコア確率型プログラミング言語(PPL)で形式化し、その予防に十分な構文条件を与え、これらの条件を満たす安全な言語フラグメント$\mathcal{L}_{\text{safe}}$が、確率ハックプログラムを生成できないことを証明した。
実験により,PyMCコードを生成するGRPO学習モデルでは,最初の数ステップでLHエクスプロイトが検出され,非トレーニングモデルベースラインよりもはるかに高い違反率が導かれることがわかった。
我々は、$\mathcal{L}_{\text{safe}}$の条件を、StanのLH耐性修飾である$\texttt{SafeStan}$として実装し、最適化圧力下でLHを防ぐことを実証的に示す。
これらの結果は、言語レベルの安全性の制約が理論的に基礎付けられており、ベイズモデルの自動発見の実践に有効であることを示している。
関連論文リスト
- Near-Optimal Sample Complexity for Online Constrained MDPs [10.479589616736193]
CMDP(Constrained Markov Decision Processs)は、性能を最適化しながら安全性の制約を強制するために一般的に用いられる。
既存の手法は、しばしば重大な安全違反に悩まされるか、あるいは準最適ポリシーを生成するために高いサンプルの複雑さを必要とする。
本稿では,後悔と制約違反のバランスをとるモデルベース原始双対アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-16T05:16:13Z) - SecureCodeRL: Security-Aware Reinforcement Learning for Code Generation with Partial-Credit Rewards [1.5377279217726239]
本稿ではセキュリティ対応コード生成のための強化学習パイプラインSecureCodeRLを提案する。
鍵となるアイデアは、中間スコアを妥当性、実行成功、出力の生成に割り当てる部分クレジット機能報酬である。
Banditは小さな評価では見つからなかったが、セキュリティ用語はトレーニングに統合され、それらが現れると安全でないショートカットを回避できる。
論文 参考訳(メタデータ) (2026-01-03T13:36:36Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Code Vulnerability Detection Across Different Programming Languages with AI Models [0.0]
本稿では,CodeBERTやCodeLlamaのようなトランスフォーマーモデルの実装について述べる。
これは、脆弱で安全なコードフラグメント上でモデルを動的に微調整することで、オフザシェルフモデルがモデル内の予測能力をいかに生み出すかを示している。
実験によると、よく訓練されたCodeBERTは97%以上の精度で既存の静的アナライザに匹敵するか、それ以上に優れている。
論文 参考訳(メタデータ) (2025-08-14T05:41:58Z) - Re:Form -- Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs: A Preliminary Study on Dafny [78.1575956773948]
強化学習(RL)で訓練された大規模言語モデル(LLM)は、信頼性も拡張性もない、という大きな課題に直面している。
有望だが、ほとんど報われていない代替手段は、フォーマルな言語ベースの推論である。
生成モデルが形式言語空間(例えばダフニー)で機能する厳密な形式体系におけるLLMの接地は、それらの推論プロセスと結果の自動的かつ数学的に証明可能な検証を可能にする。
論文 参考訳(メタデータ) (2025-07-22T08:13:01Z) - Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! [65.06450319194454]
大きな言語モデル(LLM)は、人間との安全な会話を確保するために安全アライメントを行う。
本稿では,安全アライメントの反転が可能なトレーニングフリーアタック手法を提案する。
本手法をエミュレートした脱アライメント (ED) と呼ぶのは, このコントラスト分布からのサンプリングは, 安全報酬を最小限に抑えるため, 微調整の結果を確実にエミュレートするからである。
論文 参考訳(メタデータ) (2024-02-19T18:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。