論文の概要: Retrying vs Resampling in AI Control
- arxiv url: http://arxiv.org/abs/2605.26047v2
- Date: Tue, 26 May 2026 04:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.177096
- Title: Retrying vs Resampling in AI Control
- Title(参考訳): AI制御におけるリトライ対リサンプリング
- Authors: James Lucassen, Adam Kaufman,
- Abstract要約: 我々は、AI制御の観点から再試行を行い、モデルが潜在的に敵対的なものとして扱う。
再試行は正直な疑念のスコアを減少させるが、信頼できないモデルは監視の合理性を利用してスニーカー攻撃を構築することができる。
- 参考スコア(独自算出の注目度): 0.42970700836450476
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI coding scaffolds like Claude Code and Codex use retrying: blocking actions flagged as risky and continuing the trajectory. We study retrying from an AI control perspective, which treats the model as potentially adversarial. We find that while retrying reduces honest suspicion scores, the untrusted model can exploit monitor rationale to construct sneakier attacks, negating safety gains. We also study resampling: drawing multiple samples from the same context, which does not leak exploitable information. We disentangle design choices that previous work on resampling had bundled together. In BashArena, with Claude Opus 4.6 as the untrusted model and MiMo-V2-Flash as the trusted monitor, drawing five samples per step and auditing on the maximum suspicion score raises safety from 61% to 71% at a 0.3% audit budget, at no cost to usefulness. Selectively resampling only the steps that look suspicious on the first draw recovers 6.2 percentage points of the gain while drawing only 10% as many extra samples. Two of our findings in this setting contradict earlier work on resampling. The first is that auditing based on the maximum across resampled suspicion scores outperforms using the minimum, which is the opposite of what Ctrl-Z found. The second is that executing the least suspicious sample, which is the central mechanism in earlier defer-to-resample protocols, gives only a small empirical safety gain in our setting (+3.9 pp, with the confidence interval overlapping zero).
- Abstract(参考訳): Claude CodeやCodexといったAIコーディングの足場では、リトライが使用されている。
我々は、AI制御の観点から再試行を行い、モデルが潜在的に敵対的なものとして扱う。
再試行は正直な疑念のスコアを減少させるが、信頼できないモデルは監視の合理性を利用してスニーカー攻撃を構築し、安全性の向上を否定することができる。
また、同じコンテキストから複数のサンプルを描画し、悪用可能な情報を漏らさない再サンプリングについても研究している。
私たちは、以前の再サンプリング作業がまとめられた設計選択を混乱させました。
BashArenaでは、信頼できないモデルとしてClaude Opus 4.6、信頼できるモニターとしてMiMo-V2-Flashが採用され、1ステップあたり5つのサンプルを描画し、最大被疑点スコアで監査することで、0.3%の監査予算で安全性を61%から71%に向上させる。
第1の引き分けで不審に見えるステップのみを選択的に再サンプリングすると、利得の6.2ポイントが回復し、余分なサンプルの10%しか引き出さない。
この設定における2つの発見は、再サンプリングに関する以前の研究と矛盾している。
ひとつは、再サンプリングされた疑念の最大値に基づく監査は、Ctrl-Zが発見したものと逆の最小値を用いて成績を上回ります。
第二に、初期の遅延-再サンプリングプロトコルの中心的なメカニズムである最も疑わしいサンプルの実行は、我々の設定において小さな実験的な安全性(+3.9 pp, 信頼区間が0に重なる)しか得られない。
関連論文リスト
- The Art of Building Verifiers for Computer Use Agents [17.61915099226967]
我々は,Universal Verifier(ユニバーサル検証)と呼ぶWebタスクのための最良クラス検証器の構築から学んだ教訓を提示する。
ユニバーサル検証は4つの重要な原則に基づいて設計する。
ベースラインと比較して偽陽性率がほぼゼロに低下したことを報告した。
論文 参考訳(メタデータ) (2026-04-05T06:26:05Z) - TraceGuard: Structured Multi-Dimensional Monitoring as a Collusion-Resistant Control Protocol [1.0195618602298684]
TraceGuardは5次元にわたるエージェントアクションを評価する構造化多次元監視プロトコルである。
オープンソースのControlArenaフレームワーク用の新しいモニタタイプとして実装されている。
論文 参考訳(メタデータ) (2026-04-05T05:05:59Z) - Consistent but Dangerous: Per-Sample Safety Classification Reveals False Reliability in Medical Vision-Language Models [2.064612766965483]
入力画像ではなくテキストパターンを頼りにすることで,モデルが完全整合性を達成することを示す。
我々は,4つのクワラントの安全分類を導入し,一貫性(パラフレーズ付きプロンプト間の安定な予測)と画像信頼度を共同評価する。
論文 参考訳(メタデータ) (2026-03-22T00:06:53Z) - SpatialBench-UC: Uncertainty-Aware Evaluation of Spatial Prompt Following in Text-to-Image Generation [0.0]
SpaceBench-UCは、ペアの空間関係を再現可能な小さなベンチマークである。
ベンチマークパッケージ、バージョン付きプロンプト、ピン付き構成、サンプルごとのチェッカー出力、レポートテーブルをリリースします。
安定拡散1.5, SD 1.5 BoxDiff, SD 1.4 GLIGENの3つのベースラインについて検討した。
論文 参考訳(メタデータ) (2026-01-19T23:37:10Z) - Ensemble Threshold Calibration for Stable Sensitivity Control [0.0]
本稿では,数千万組の幾何対もの幾何に対して,過度に分散した正確なリコールを実現するエンド・ツー・エンドのフレームワークを提案する。
我々のアプローチは、小さなエラーで常にリコールターゲットにヒットし、他のキャリブレーションと比較して冗長な検証を減らし、単一のTPU v3コア上でエンドツーエンドで実行します。
論文 参考訳(メタデータ) (2025-10-02T15:22:28Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - T2IShield: Defending Against Backdoors on Text-to-Image Diffusion Models [70.03122709795122]
バックドア攻撃の検出, 局所化, 緩和のための総合防御手法T2IShieldを提案する。
バックドアトリガーによって引き起こされた横断アテンションマップの「アシミレーション現象」を見いだす。
バックドアサンプル検出のために、T2IShieldは計算コストの低い88.9$%のF1スコアを達成している。
論文 参考訳(メタデータ) (2024-07-05T01:53:21Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。