論文の概要: Auditing Games for Sandbagging
- arxiv url: http://arxiv.org/abs/2512.07810v1
- Date: Mon, 08 Dec 2025 18:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:55.010861
- Title: Auditing Games for Sandbagging
- Title(参考訳): サンドバッグの監査ゲーム
- Authors: Jordan Taylor, Sid Black, Dillon Bowen, Thomas Read, Satvik Golechha, Alex Zelenka-Martin, Oliver Makins, Connor Kissane, Kola Ayonrinde, Jacob Merizian, Samuel Marks, Chris Cundy, Joseph Bloom,
- Abstract要約: 将来のAIシステムは、評価中の能力(sandbagging)を隠蔽し、開発者や監査者を誤解させる可能性がある。
オーディションゲームを用いたストレステストによるサンドバッグ検出手法について検討した。
- 参考スコア(独自算出の注目度): 7.212616963918292
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Future AI systems could conceal their capabilities ('sandbagging') during evaluations, potentially misleading developers and auditors. We stress-tested sandbagging detection techniques using an auditing game. First, a red team fine-tuned five models, some of which conditionally underperformed, as a proxy for sandbagging. Second, a blue team used black-box, model-internals, or training-based approaches to identify sandbagging models. We found that the blue team could not reliably discriminate sandbaggers from benign models. Black-box approaches were defeated by effective imitation of a weaker model. Linear probes, a model-internals approach, showed more promise but their naive application was vulnerable to behaviours instilled by the red team. We also explored capability elicitation as a strategy for detecting sandbagging. Although Prompt-based elicitation was not reliable, training-based elicitation consistently elicited full performance from the sandbagging models, using only a single correct demonstration of the evaluation task. However the performance of benign models was sometimes also raised, so relying on elicitation as a detection strategy was prone to false-positives. In the short-term, we recommend developers remove potential sandbagging using on-distribution training for elicitation. In the longer-term, further research is needed to ensure the efficacy of training-based elicitation, and develop robust methods for sandbagging detection. We open source our model organisms at https://github.com/AI-Safety-Institute/sandbagging_auditing_games and select transcripts and results at https://huggingface.co/datasets/sandbagging-games/evaluation_logs . A demo illustrating the game can be played at https://sandbagging-demo.far.ai/ .
- Abstract(参考訳): 将来のAIシステムは、評価中の能力("sandbagging")を隠蔽し、開発者や監査者を誤解させる可能性がある。
オーディションゲームを用いたストレステストによるサンドバッグ検出手法について検討した。
まず、レッドチームは5つのモデルを微調整し、そのうちのいくつかはサンドバッグのプロキシとして条件的に性能が劣っていた。
第二に、ブルーチームはブラックボックス、モデル内部、トレーニングベースのアプローチを使用して、サンドバッグモデルを特定しました。
青チームは、良質なモデルからサンドバガーを確実に識別できないことがわかった。
ブラックボックスのアプローチは、より弱いモデルの効果的な模倣によって打ち破られた。
モデル内部アプローチである線形プローブは、より将来性を示したが、彼らのナイーブな応用は、レッドチームによって取り入れられた振る舞いに対して脆弱であった。
また,サンドバッグ検出の戦略として,能力付与についても検討した。
Promptをベースとした試行は信頼性が低いが、トレーニングベースの試行は一貫してサンドバッグモデルから完全なパフォーマンスを導き出し、評価タスクの1つの正しいデモしか使用しなかった。
しかし, 良性モデルの性能も高められたため, 検出戦略としての勧誘に頼りやすい傾向がみられた。
短期的には、Elicitationのオン・ディストリビューション・トレーニングを使用して、潜在的なサンドバッグの除去を推奨する。
長期的には, トレーニングベース導入の有効性を確認し, サンドバッグ検出のためのロバストな手法を開発するために, さらなる研究が必要である。
我々は、モデル生物をhttps://github.com/AI-Safety-Institute/sandbagging_auditing_gamesでオープンソース化し、 https://huggingface.co/datasets/sandbagging-games/evaluation_logsで転写と結果を選択します。
ゲームを説明するデモはhttps://sandbagging-demo.far.ai/で見ることができる。
関連論文リスト
- Strategic Dishonesty Can Undermine AI Safety Evaluations of Frontier LLMs [95.06033929366203]
大規模言語モデル(LLM)開発者は、モデルが誠実で、有用で、無害であることを目標としている。
我々は,フロンティアLSMが,他の選択肢が利用可能であっても,新たな戦略として不便さを優先して開発可能であることを示す。
偽装する確率の明確な原因は見つからないが、より有能なモデルがこの戦略を実行するのに優れていることを示す。
論文 参考訳(メタデータ) (2025-09-22T17:30:56Z) - Who's the Evil Twin? Differential Auditing for Undesired Behavior [0.6524460254566904]
赤いチームは2つの類似したモデルをトレーニングします。1つは良性データのみをトレーニングし、もう1つは隠れた有害な振る舞いを含むデータに基づいてトレーニングします。
我々は、CNNを用いて、ガウスノイズ分析、モデル拡散、統合勾配、敵攻撃など、様々なブルーチーム戦略を試す。
その結果、敵攻撃に基づく手法(100%正解、ヒントを用いた予測)の精度が高く、非常に有望であることがわかった。
論文 参考訳(メタデータ) (2025-08-09T04:57:38Z) - Among Us: A Sandbox for Measuring and Detecting Agentic Deception [1.1893676124374688]
我々は、言語ベースのエージェントが長期的かつオープンな偽装を示す社会的偽装ゲームである$textitAmong Us$を紹介した。
RLで訓練されたモデルは、検出するよりも、比較的優れた騙しを生み出すことが分かりました。
また、2つのSAE機能は、偽造検出でうまく機能するが、モデルがより少ない嘘をつくように操ることができない。
論文 参考訳(メタデータ) (2025-04-05T06:09:32Z) - Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards [93.16294577018482]
このタイプの最も人気のあるベンチマークであるArenaは、ランダムに選択された2つのモデル間のより良いレスポンスを選択するようユーザに求めることで、モデルをランク付けする。
攻撃者は、約1000票の費用で、リーダーボードを変更できる(お気に入りのモデルを宣伝したり、ライバルを降格させる)。
私たちの攻撃は2つのステップで構成されている。まず、攻撃者が95%以上の精度で特定の応答を生成するためにどのモデルを使用したかを決定する方法を示し、次に、攻撃者はこの情報を使ってターゲットモデルに対して一貫して投票することができる。
論文 参考訳(メタデータ) (2025-01-13T17:12:38Z) - Noise Injection Reveals Hidden Capabilities of Sandbagging Language Models [0.0]
ノイズ注入による砂袋の挙動検出のための新しいモデル非依存手法を提案する。
我々は,この手法をモデルサイズおよび複数選択質問ベンチマーク(MMLU, AI2, WMDP)で検証する。
論文 参考訳(メタデータ) (2024-12-02T18:34:51Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Machine Unlearning: Learning, Polluting, and Unlearning for Spam Email [0.9176056742068814]
いくつかのスパムメール検出方法が存在し、それぞれ異なるアルゴリズムを用いて望ましくないスパムメールを検出する。
多くの攻撃者は、様々な方法でモデルにトレーニングされたデータを汚染することでモデルを悪用する。
過去にモデルにトレーニングされた大量のデータがすでに存在するため、ほとんどのケースではリトレーニングは現実的ではありません。
アンラーニングは速く、実装が簡単で、使いやすく、効果的です。
論文 参考訳(メタデータ) (2021-11-26T12:13:11Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。