論文の概要: Frontier Models Can Take Actions at Low Probabilities
- arxiv url: http://arxiv.org/abs/2603.02202v1
- Date: Mon, 02 Mar 2026 18:56:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:57.046621
- Title: Frontier Models Can Take Actions at Low Probabilities
- Title(参考訳): フロンティアモデルは低い確率で行動を起こすことができる
- Authors: Alex Serrano, Wen Xing, David Lindner, Erik Jenner,
- Abstract要約: 事前デプロイ評価は、モデルアクションの限られたサンプルのみを検査する。
監視を回避しようとする悪意あるモデルが、いつ「欠陥」を発生させるのかをランダム化することで、これを悪用できる
これはキャリブレーションを維持しながら、非常に低いレートで行動を起こす必要がある。
私たちは、フロンティアモデルがこのタスクに驚くほど適していることに気付きました。
- 参考スコア(独自算出の注目度): 10.455946916518757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-deployment evaluations inspect only a limited sample of model actions. A malicious model seeking to evade oversight could exploit this by randomizing when to "defect": misbehaving so rarely that no malicious actions are observed during evaluation, but often enough that they occur eventually in deployment. But this requires taking actions at very low rates, while maintaining calibration. Are frontier models even capable of that? We prompt the GPT-5, Claude-4.5 and Qwen-3 families to take a target action at low probabilities (e.g. 0.01%), either given directly or requiring derivation, and evaluate their calibration (i.e. whether they perform the target action roughly 1 in 10,000 times when resampling). We find that frontier models are surprisingly good at this task. If there is a source of entropy in-context (such as a UUID), they maintain high calibration at rates lower than 1 in 100,000 actions. Without external entropy, some models can still reach rates lower than 1 in 10,000. When target rates are given, larger models achieve good calibration at lower rates. Yet, when models must derive the optimal target rate themselves, all models fail to achieve calibration without entropy or hint to generate it. Successful low-rate strategies require explicit Chain-of-Thought (CoT) reasoning, so malicious models attempting this approach could currently be caught by a CoT monitor. However, scaling trends suggest future evaluations may be unable to rely on models' lack of target rate calibration, especially if CoT is no longer legible.
- Abstract(参考訳): 事前デプロイ評価は、モデルアクションの限られたサンプルのみを検査する。
過度な監視を避けようとする悪意のあるモデルは、いつ“欠陥”を発生させるのかをランダム化することで、これを悪用することができる。
しかしこれは、キャリブレーションを維持しながら、非常に低いレートで行動を起こす必要がある。
フロンティアモデルはそれで十分か?
我々は, GPT-5, Claude-4.5, Qwen-3ファミリーに対して, 低確率での目標行動(例えば0.01%)を指示し, 直接的または導出を必要とするか, 校正を行うか(つまり, 再サンプリング時に約1万回, 目標行動を行うか)を評価する。
私たちは、フロンティアモデルがこのタスクに驚くほど適していることに気付きました。
エントロピーの源が存在する場合(UUIDなど)、彼らは10万のアクションにおいて1以下のレートで高いキャリブレーションを維持する。
外部エントロピーがなければ、一部のモデルでは1万分の1以下のレートに達することができる。
目標レートが与えられると、より大きなモデルは低いレートで良好なキャリブレーションを達成する。
しかし、モデル自身が最適な目標レートを導出しなければならない場合、すべてのモデルはエントロピーやヒントなしでキャリブレーションを達成できない。
成功率の低い戦略には明確なチェーン・オブ・ライト(CoT)推論が必要であるため、このアプローチを試みている悪意のあるモデルは現在、CoTモニターによってキャッチされる可能性がある。
しかし、スケーリングの傾向は、特にCoTがもはや妥当でない場合、将来の評価はターゲットレートのキャリブレーションの欠如に頼ることができないかもしれないことを示唆している。
関連論文リスト
- Fundamental Limits of Black-Box Safety Evaluation: Information-Theoretic and Computational Barriers from Latent Context Conditioning [1.9290392443571385]
AIシステムのブラックボックス安全性評価では、テストディストリビューションのモデル動作がデプロイメントのパフォーマンスを確実に予測していると仮定する。
我々は、この仮定を、潜伏した文脈条件のポリシーによって定式化し、挑戦する。
ブラックボックス評価者が配置リスクを確実に見積もることができないという基本的な制限を確立します。
論文 参考訳(メタデータ) (2026-02-19T01:03:11Z) - MERGETUNE: Continued fine-tuning of vision-language models [77.8627788911249]
微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
論文 参考訳(メタデータ) (2026-01-15T15:15:53Z) - Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning [32.32593439144886]
振舞い校正された強化学習により、小さなモデルは不確実な定量化においてフロンティアモデルを超えることができる。
当社のモデルでは,GPT-5の0.207を超える精度向上率(0.806)を挑戦的なドメイン内評価において達成している。
論文 参考訳(メタデータ) (2025-12-22T22:51:48Z) - Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。
しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。
対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文 参考訳(メタデータ) (2024-03-13T13:54:00Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Training Normalizing Flows with the Precision-Recall Divergence [73.92251251511199]
特定精度リコールトレードオフを達成することは、em PR-divergencesと呼ぶ家族からの-divergencesの最小化に相当することを示す。
本稿では, 正規化フローをトレーニングして, 偏差を最小化し, 特に, 所与の高精度リコールトレードオフを実現する新しい生成モデルを提案する。
論文 参考訳(メタデータ) (2023-02-01T17:46:47Z) - One-Pixel Shortcut: on the Learning Preference of Deep Neural Networks [28.502489028888608]
Unlearnable Example (ULE) は、DNNのトレーニングのための不正使用からデータを保護することを目的としている。
逆行訓練では、誤り最小化ノイズの非学習性は著しく低下する。
本稿では,各画像の1ピクセルのみを摂動させ,データセットを学習不能にする,新しいモデルフリー手法であるemphOne-Pixel Shortcutを提案する。
論文 参考訳(メタデータ) (2022-05-24T15:17:52Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Probing Model Signal-Awareness via Prediction-Preserving Input
Minimization [67.62847721118142]
モデルが正しい脆弱性信号を捕捉して予測する能力を評価する。
SAR(Signal-Aware Recall)と呼ばれる新しい指標を用いて,モデルの信号認識を計測する。
その結果,90年代以降のリコールから60年代以降のリコールは,新たな指標で大幅に減少した。
論文 参考訳(メタデータ) (2020-11-25T20:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。