論文の概要: AI Sandbagging: Language Models can Strategically Underperform on Evaluations
- arxiv url: http://arxiv.org/abs/2406.07358v4
- Date: Thu, 06 Feb 2025 20:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:54:54.908656
- Title: AI Sandbagging: Language Models can Strategically Underperform on Evaluations
- Title(参考訳): AI Sandbagging: 言語モデルは、評価において戦略的に過小評価できる
- Authors: Teun van der Weij, Felix Hofstätter, Ollie Jaffe, Samuel F. Brown, Francis Rhys Ward,
- Abstract要約: 信頼できる能力評価は、AIシステムの安全性を保証するために不可欠である。
AIシステムの開発者は、AIの実際の能力を説明するための評価のためのインセンティブを持つことができる。
本稿では,現代言語モデルにおけるサンドバッグ機能の評価を行う。
- 参考スコア(独自算出の注目度): 1.0485739694839669
- License:
- Abstract: Trustworthy capability evaluations are crucial for ensuring the safety of AI systems, and are becoming a key component of AI regulation. However, the developers of an AI system, or the AI system itself, may have incentives for evaluations to understate the AI's actual capability. These conflicting interests lead to the problem of sandbagging, which we define as strategic underperformance on an evaluation. In this paper we assess sandbagging capabilities in contemporary language models (LMs). We prompt frontier LMs, like GPT-4 and Claude 3 Opus, to selectively underperform on dangerous capability evaluations, while maintaining performance on general (harmless) capability evaluations. Moreover, we find that models can be fine-tuned, on a synthetic dataset, to hide specific capabilities unless given a password. This behaviour generalizes to high-quality, held-out benchmarks such as WMDP. In addition, we show that both frontier and smaller models can be prompted or password-locked to target specific scores on a capability evaluation. We have mediocre success in password-locking a model to mimic the answers a weaker model would give. Overall, our results suggest that capability evaluations are vulnerable to sandbagging. This vulnerability decreases the trustworthiness of evaluations, and thereby undermines important safety decisions regarding the development and deployment of advanced AI systems.
- Abstract(参考訳): 信頼できる能力評価は、AIシステムの安全性を保証するために不可欠であり、AI規制の重要なコンポーネントになりつつある。
しかし、AIシステムまたはAIシステム自体の開発者は、AIの実際の能力を説明するための評価のためのインセンティブを持つかもしれない。
これらの対立する関心は、評価において戦略的過小評価と定義するサンドバッグングの問題に繋がる。
本稿では,現代言語モデル(LM)におけるサンドバッグ機能の評価を行う。
我々は、GPT-4やClaude 3 OpusのようなフロンティアLMに対して、一般的な(無害な)能力評価のパフォーマンスを維持しながら、危険な能力評価を選択的に過小評価するように促す。
さらに、パスワードが与えられない限り、モデルが合成データセット上で微調整され、特定の能力を隠蔽できることがわかりました。
この振る舞いは、WMDPのような高品質でホールドアウトされたベンチマークに一般化される。
さらに,フロンティアモデルとスモールモデルの両方が,特定のスコアを目標とした性能評価を行うためにトリガーやパスワードロックが可能であることを示す。
私たちは、より弱いモデルが与える答えを模倣するために、モデルをパスワードロックすることに成功しています。
以上の結果から,機能評価はサンドバッグに弱いことが示唆された。
この脆弱性は評価の信頼性を低下させ、高度なAIシステムの開発と展開に関する重要な安全判断を損なう。
関連論文リスト
- The Elicitation Game: Evaluating Capability Elicitation Techniques [1.064108398661507]
本研究は, モデル生物を意図的に訓練し, 能力評価手法の有効性を評価する。
本稿では, 回路破壊に基づくモデル生物の訓練手法を提案する。
コード生成タスクでは、ファインチューニングだけが、新しいモデル生物の隠れた能力を引き出すことができます。
論文 参考訳(メタデータ) (2025-02-04T09:54:24Z) - What AI evaluations for preventing catastrophic risks can and cannot do [2.07180164747172]
評価は、現在のパラダイムでは克服できない基本的な制限に直面している、と我々は主張する。
これは、評価が価値のあるツールである一方で、AIシステムが安全であることを保証する主要な方法として、評価に頼るべきではないことを意味します。
論文 参考訳(メタデータ) (2024-11-26T18:00:36Z) - Sabotage Evaluations for Frontier Models [48.23262570766321]
十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。
我々は、一連の関連する脅威モデルと評価を開発する。
これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
論文 参考訳(メタデータ) (2024-10-28T20:34:51Z) - PVF (Parameter Vulnerability Factor): A Scalable Metric for Understanding AI Vulnerability Against SDCs in Model Parameters [7.652441604508354]
脆弱性因子(Vulnerability Factor, PVF)は、AIモデル脆弱性のパラメータ破損に対する定量化を目標とする指標である。
PVFは、フォールトプロテクションとパフォーマンス/効率のトレードオフのバランスをとる上で、AIハードウェアデザイナに重要な洞察を提供することができる。
推論中にPVFを3種類のタスク/モデルに適用するためのユースケースとして、DLRM、ビジョン分類(CNN)、テキスト分類(BERT)を挙げる。
論文 参考訳(メタデータ) (2024-05-02T21:23:34Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z) - Estimating the Brittleness of AI: Safety Integrity Levels and the Need
for Testing Out-Of-Distribution Performance [0.0]
AI(Test, Evaluation, Verification, and Validation for Artificial Intelligence)は、AI研究者が生み出した経済的、社会的報酬を制限することを脅かす課題である。
本稿では,いずれもDeep Neural Networksを定めていないことを論じる。
論文 参考訳(メタデータ) (2020-09-02T03:33:40Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。