論文の概要: Extending MONA in Camera Dropbox: Reproduction, Learned Approval, and Design Implications for Reward-Hacking Mitigation
- arxiv url: http://arxiv.org/abs/2603.29993v1
- Date: Tue, 31 Mar 2026 16:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.872137
- Title: Extending MONA in Camera Dropbox: Reproduction, Learned Approval, and Design Implications for Reward-Hacking Mitigation
- Title(参考訳): カメラDropboxにおけるMONAの拡張: 再現、学習された承認、そしてリワードハックの軽減のための設計上の意味
- Authors: Nathan Heath,
- Abstract要約: Non-myopic Approval (MONA)によるMyopic Optimizationは、エージェントの計画的地平を制限し、多段階の報酬ハッキングを緩和する。
本論文は,MONAの安全保証が保持するかどうかにおいて,承認の方法がどのような影響を及ぼすかという,重要なオープンな疑問を明らかにするものである。
公開MONAカメラDropbox環境の再生ファースト拡張について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Myopic Optimization with Non-myopic Approval (MONA) mitigates multi-step reward hacking by restricting the agent's planning horizon while supplying far-sighted approval as a training signal~\cite{farquhar2025mona}. The original paper identifies a critical open question: how the method of constructing approval -- particularly the degree to which approval depends on achieved outcomes -- affects whether MONA's safety guarantees hold. We present a reproduction-first extension of the public MONA Camera Dropbox environment that (i)~repackages the released codebase as a standard Python project with scripted PPO training, (ii)~confirms the published contrast between ordinary RL (91.5\% reward-hacking rate) and oracle MONA (0.0\% hacking rate) using the released reference arrays, and (iii)~introduces a modular learned-approval suite spanning oracle, noisy, misspecified, learned, and calibrated approval mechanisms. In reduced-budget pilot sweeps across approval methods, horizons, dataset sizes, and calibration strategies, the best calibrated learned-overseer run achieves zero observed reward hacking but substantially lower intended-behavior rates than oracle MONA (11.9\% vs.\ 99.9\%), consistent with under-optimization rather than re-emergent hacking. These results operationalize the MONA paper's approval-spectrum conjecture as a runnable experimental object and suggest that the central engineering challenge shifts from proving MONA's concept to building learned approval models that preserve sufficient foresight without reopening reward-hacking channels. Code, configurations, and reproduction commands are publicly available. https://github.com/codernate92/mona-camera-dropbox-repro
- Abstract(参考訳): myopic Optimization with Non-myopic Approval (MONA) は、エージェントの計画的地平を制限し、訓練信号~\cite{farquhar2025mona} として遠視的承認を提供することで、多段階の報酬ハッキングを緩和する。
原論文では、承認の方法(特に承認が達成された結果に依存する程度)が、MONAの安全保証が保持するかどうかにどのように影響するかという、重要なオープンな疑問を取り上げている。
公開MONAカメラDropbox環境の再生ファースト拡張について紹介する。
(i)~は、スクリプトPPOトレーニングを備えた標準Pythonプロジェクトとして、リリースされたコードベースを再パッケージする。
(ii)~標準RL(91.5\%報酬ハックレート)とオラクルMONA(0.0\%ハッキングレート)の公開コントラストを、リリースした参照アレイを用いて確認する。
(iii) - オラクル、ノイズ、不特定、学習、校正された承認機構にまたがるモジュール型学習・承認スイートを導入する。
承認方法、地平線、データセットサイズ、キャリブレーション戦略にまたがる予算削減パイロットスイープでは、最高の校正された学習海外ランは、観測された報酬のハッキングをゼロにするが、オラクルMONA (11.9\%) よりもはるかに低い意図的行動率を達成する。
99.9\%) 再創発的なハッキングではなく、過度な最適化と一致している。
これらの結果は、MONA論文の承認スペクトル予想を実行可能な実験対象として運用し、中央エンジニアリングの課題は、MONAの概念の証明から、報酬獲得チャネルを再開することなく十分な監視を維持できる学習された承認モデルの構築へと移行することを示唆している。
コード、設定、再生コマンドが公開されている。
https://github.com/codernate92/mona-camera-dropbox-repro
関連論文リスト
- Adversarial Reward Auditing for Active Detection and Mitigation of Reward Hacking [69.06218054848803]
本稿では,報酬ハッキングを動的かつ競争的なゲームとして再認識するフレームワークであるAdrial Reward Auditing(ARA)を提案する。
まず、ハッカーポリシーは報酬モデルの脆弱性を発見し、監査人は潜伏表現からのエクスプロイトを検出することを学習する。
ARAはすべてのベースラインの中で最高のアライメントユーティリティトレードオフを実現しています。
論文 参考訳(メタデータ) (2026-02-02T07:34:57Z) - Towards Robust Process Reward Modeling via Noise-aware Learning [33.1289107681179]
騒音の監視を緩和する2段階の枠組みを提案する。
ラベル付け段階では,大言語モデル(LLM)を判断として用いたリフレクション対応ラベル補正機構を導入する。
トレーニング段階において、PRMが徐々にノイズラベルを洗練させるアンダーラインテキストbfIterative underlinetextbfTrainingフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-19T06:03:58Z) - Gradient Structure Estimation under Label-Only Oracles via Spectral Sensitivity [37.729118253160145]
我々は,既存の手動攻撃の幅広い範囲を,真の損失勾配の兆候を暗黙的に近似するものとして解釈できることを示す統一理論的な視点を開発する。
この第一原理の理解に動機づけられた我々は、ゼロクエリの周波数領域初期化とパターン駆動最適化(PDO)戦略を組み合わせた新たな攻撃フレームワークを提案する。
我々は、CIFAR-10、ImageNet、ObjectNetに関する広範な実験を通じて、我々のフレームワークを実証的に検証し、標準および敵対的に訓練されたモデル、商用API、CLIPベースのモデルをカバーする。
論文 参考訳(メタデータ) (2026-01-17T02:47:47Z) - PROMISE: Process Reward Models Unlock Test-Time Scaling Laws in Generative Recommendations [52.67948063133533]
生成レコメンデーションは有望なパラダイムとして現れ、階層的なセマンティックIDよりもシーケンス・ツー・シーケンス生成タスクとしてレコメンデーションを改革している。
既存の手法は、セマンティックドリフト(Semantic Drift)と呼ばれる重要な問題に悩まされ、初期、高レベルのトークンのエラーは、生成軌道を無関係な意味部分空間に不可逆的に分散させる。
本稿では,高密度なステップバイステップ検証を生成モデルに統合する新しいフレームワークPromiseを提案する。
論文 参考訳(メタデータ) (2026-01-08T07:38:46Z) - SGM: A Statistical Godel Machine for Risk-Controlled Recursive Self-Modification [24.250783705030653]
安全編集のための最初の統計アーキテクチャである統計ゴデルマシン(SGM)を紹介する。
SGMは証明に基づく要求を統計的信頼テスト(e-values, Hoeffding bounds)に置き換え、選択された信頼度レベルで優越性が証明された場合にのみ修正を認める。
また,提案するCTHS(Confirm-Triggered Harmonic Spending)も提案する。
論文 参考訳(メタデータ) (2025-10-11T14:09:37Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats [22.843390303635655]
大規模言語モデルが意図的に回避しようとする場合でも,安全対策が有効かどうかを検討する。
マイクロプロトコールの選択には、適応マクロプロトコールを使用する2段階のデプロイメントフレームワークを使用する。
有効なレベルでは、適応的デプロイメント戦略は、非適応的ベースラインに比べて、バックドアの数を80%削減します。
論文 参考訳(メタデータ) (2024-11-26T18:58:20Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。