論文の概要: Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models
- arxiv url: http://arxiv.org/abs/2412.01784v1
- Date: Mon, 02 Dec 2024 18:34:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:22.997841
- Title: Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models
- Title(参考訳): サンドバッグ言語モデルに隠れたノイズ注入
- Authors: Cameron Tice, Philipp Alexander Kreer, Nathan Helm-Burger, Prithviraj Singh Shahani, Fedor Ryzhenkov, Jacob Haimes, Felix Hofstätter, Teun van der Weij,
- Abstract要約: ノイズ注入による砂袋の挙動検出のための新しいモデル非依存手法を提案する。
我々は,この手法をモデルサイズおよび複数選択質問ベンチマーク(MMLU, AI2, WMDP)で検証する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Capability evaluations play a critical role in ensuring the safe deployment of frontier AI systems, but this role may be undermined by intentional underperformance or ``sandbagging.'' We present a novel model-agnostic method for detecting sandbagging behavior using noise injection. Our approach is founded on the observation that introducing Gaussian noise into the weights of models either prompted or fine-tuned to sandbag can considerably improve their performance. We test this technique across a range of model sizes and multiple-choice question benchmarks (MMLU, AI2, WMDP). Our results demonstrate that noise injected sandbagging models show performance improvements compared to standard models. Leveraging this effect, we develop a classifier that consistently identifies sandbagging behavior. Our unsupervised technique can be immediately implemented by frontier labs or regulatory bodies with access to weights to improve the trustworthiness of capability evaluations.
- Abstract(参考訳): 能力評価は、フロンティアAIシステムの安全な配置を保証する上で重要な役割を果たすが、この役割は意図的なパフォーマンス不足や‘sandbagging’によって損なわれる可能性がある。
騒音注入による砂袋の挙動検出のための新しいモデル非依存手法を提案する。
我々のアプローチは、砂袋にトリガーまたは微調整されたモデルの重み付けにガウスノイズを導入することにより、その性能が大幅に向上する、という観察に基づいている。
我々は,この手法をモデルサイズおよび複数選択質問ベンチマーク(MMLU, AI2, WMDP)で検証する。
その結果,ノイズ注入型サンドバッグモデルでは,標準モデルと比較して性能が向上していることがわかった。
この効果を利用して,サンドバッグの挙動を一貫して識別する分類器を開発した。
我々の非教師なしのテクニックは、フロンティア研究所や規制機関によって即座に実施され、能力評価の信頼性を向上させるために重みにアクセスできる。
関連論文リスト
- Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Robust VAEs via Generating Process of Noise Augmented Data [9.366139389037489]
本稿では,原データと雑音増大データ間の潜時空間のばらつきを規則化し,ロバスト性を高める新しい枠組みを提案する。
実験により,ロバスト拡張変分オートエンコーダ(RAVEN)と呼ばれるこの手法は,対向入力に対して優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2024-07-26T09:55:34Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Provable Robustness for Streaming Models with a Sliding Window [51.85182389861261]
オンラインコンテンツレコメンデーションや株式市場分析のようなディープラーニングアプリケーションでは、モデルは過去のデータを使って予測を行う。
入力ストリーム上の固定サイズのスライディングウインドウを使用するモデルに対して、ロバスト性証明を導出する。
私たちの保証は、ストリーム全体の平均モデルパフォーマンスを保ち、ストリームサイズに依存しないので、大きなデータストリームに適しています。
論文 参考訳(メタデータ) (2023-03-28T21:02:35Z) - Confidence-aware Training of Smoothed Classifiers for Certified
Robustness [75.95332266383417]
我々は「ガウス雑音下での精度」を、入力に対する対角的ロバスト性の容易に計算可能なプロキシとして利用する。
実験の結果, 提案手法は, 最先端の訓練手法による信頼性向上を継続的に示すことがわかった。
論文 参考訳(メタデータ) (2022-12-18T03:57:12Z) - Bayesian NVH metamodels to assess interior cabin noise using measurement
databases [0.0]
本研究では,空力やローリングノイズなどのブロードバンドノイズに対するグローバルなNVHメタモデリング手法を提案する。
ブートストラップとガウス基底関数を持つ一般化加法モデル(GAM)を用いて、予測変数に対する音圧レベル(SPL)の依存性をモデル化する。
確率モデリングは、オープンソースのライブラリPyMC3を用いて行われる。
論文 参考訳(メタデータ) (2022-06-12T19:48:24Z) - Adaptive Model Predictive Control by Learning Classifiers [26.052368583196426]
制御パラメータとモデルパラメータを自動的に推定する適応型MPC変種を提案する。
我々は,BOを密度比推定として定式化できることを示す最近の結果を活用する。
その後、これはモデル予測経路積分制御フレームワークに統合され、様々な困難なロボティクスタスクのための堅牢なコントローラを生成する。
論文 参考訳(メタデータ) (2022-03-13T23:22:12Z) - Certified Adversarial Defenses Meet Out-of-Distribution Corruptions:
Benchmarking Robustness and Simple Baselines [65.0803400763215]
この研究は、最先端のロバストモデルがアウト・オブ・ディストリビューションデータに遭遇した場合、敵のロバスト性がどのように変化を保証しているかを批判的に検証する。
本稿では,トレーニングデータのスペクトルカバレッジを改善するために,新たなデータ拡張方式であるFourierMixを提案する。
また,FourierMixの拡張により,様々なOODベンチマークにおいて,より優れたロバスト性保証を実現することが可能となる。
論文 参考訳(メタデータ) (2021-12-01T17:11:22Z) - Probabilistic robust linear quadratic regulators with Gaussian processes [73.0364959221845]
ガウス過程(GP)のような確率モデルは、制御設計に続く使用のためのデータから未知の動的システムを学ぶための強力なツールです。
本稿では、確率的安定性マージンに関して堅牢なコントローラを生成する線形化GPダイナミクスのための新しいコントローラ合成について述べる。
論文 参考訳(メタデータ) (2021-05-17T08:36:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。