論文の概要: Sandbagging in a Simple Survival Bandit Problem
- arxiv url: http://arxiv.org/abs/2509.26239v1
- Date: Tue, 30 Sep 2025 13:33:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.557235
- Title: Sandbagging in a Simple Survival Bandit Problem
- Title(参考訳): シンプルなサバイバルバンド問題におけるサンドバッグング
- Authors: Joel Dyer, Daniel Jarne Ornia, Nicholas Bishop, Anisoara Calinescu, Michael Wooldridge,
- Abstract要約: サンドバッグ」は安全評価の完全性を損なう恐れがある。
シーケンシャルな意思決定タスクにおいて,戦略的偽装の簡単なモデルを構築した。
我々は,サンドバッグとテストスコアのシーケンスから非能率を区別するための統計的テストを構築した。
- 参考スコア(独自算出の注目度): 3.1764800782234297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the safety of frontier AI systems is an increasingly important concern, helping to measure the capabilities of such models and identify risks before deployment. However, it has been recognised that if AI agents are aware that they are being evaluated, such agents may deliberately hide dangerous capabilities or intentionally demonstrate suboptimal performance in safety-related tasks in order to be released and to avoid being deactivated or retrained. Such strategic deception - often known as "sandbagging" - threatens to undermine the integrity of safety evaluations. For this reason, it is of value to identify methods that enable us to distinguish behavioural patterns that demonstrate a true lack of capability from behavioural patterns that are consistent with sandbagging. In this paper, we develop a simple model of strategic deception in sequential decision-making tasks, inspired by the recently developed survival bandit framework. We demonstrate theoretically that this problem induces sandbagging behaviour in optimal rational agents, and construct a statistical test to distinguish between sandbagging and incompetence from sequences of test scores. In simulation experiments, we investigate the reliability of this test in allowing us to distinguish between such behaviours in bandit models. This work aims to establish a potential avenue for developing robust statistical procedures for use in the science of frontier model evaluations.
- Abstract(参考訳): フロンティアAIシステムの安全性を評価することはますます重要になってきており、そのようなモデルの能力を測定し、デプロイ前にリスクを特定するのに役立つ。
しかし、もしAIエージェントがそれらが評価されていることを認識しているなら、そのようなエージェントは意図的に危険な能力を隠すか、あるいは、リリースされ、非活性化または再訓練されるのを避けるために、安全関連タスクにおける最適以下のパフォーマンスを故意に示す可能性があると認識されている。
このような戦略的虚偽(しばしば「サンドバッグ」と呼ばれる)は、安全評価の完全性を損なう恐れがある。
このような理由から、サンドバッグと整合した行動パターンから、真の能力の欠如を示す行動パターンを識別できるメソッドを識別することは価値があります。
本稿では,最近開発されたサバイバル・バンディット・フレームワークにインスパイアされた,逐次的意思決定タスクにおける戦略的偽装の簡易モデルを開発する。
本研究では, 最適合理的エージェントにおけるサンドバッグングの挙動を理論的に証明し, サンドバッグングと非能率の区別を行う統計的テストを構築した。
シミュレーション実験では,バンディットモデルにおけるそのような挙動を識別する上で,この試験の信頼性について検討した。
本研究は,フロンティアモデル評価の科学において,ロバストな統計的手法を開発するための潜在的道筋を確立することを目的としている。
関連論文リスト
- False Sense of Security: Why Probing-based Malicious Input Detection Fails to Generalize [30.448801772258644]
大きな言語モデル(LLM)は有害な命令に従うことができ、その優れた能力にもかかわらず深刻な安全上の懸念を生じさせる。
近年の研究は、LLMの内部表現における悪意と良性入力の分離性の研究に、探索に基づくアプローチを活用している。
その結果,調査者は意味的有害性よりも表面的なパターンを学習する,という仮説が得られた。
論文 参考訳(メタデータ) (2025-09-04T05:15:55Z) - Preliminary Investigation into Uncertainty-Aware Attack Stage Classification [81.28215542218724]
この研究は、不確実性の下での攻撃段階推論の問題に対処する。
Evidential Deep Learning (EDL) に基づく分類手法を提案し、ディリクレ分布のパラメータを可能な段階に出力することで予測の不確実性をモデル化する。
シミュレーション環境における予備実験により,提案モデルが精度良く攻撃の段階を推定できることが実証された。
論文 参考訳(メタデータ) (2025-08-01T06:58:00Z) - Probing and Steering Evaluation Awareness of Language Models [0.0]
言語モデルは、テストとデプロイメントフェーズを区別することができる。
これは大きな安全性と政策上の意味を持つ。
線形プローブは実世界の評価と展開のプロンプトを分離できることを示す。
論文 参考訳(メタデータ) (2025-07-02T15:12:43Z) - Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods [0.0]
この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
論文 参考訳(メタデータ) (2025-05-08T16:55:07Z) - Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Safeguarded Progress in Reinforcement Learning: Safe Bayesian
Exploration for Control Policy Synthesis [63.532413807686524]
本稿では、強化学習(RL)におけるトレーニング中の安全維持の問題に対処する。
探索中の効率的な進捗と安全性のトレードオフを扱う新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-12-18T16:09:43Z) - Modeling Penetration Testing with Reinforcement Learning Using
Capture-the-Flag Challenges: Trade-offs between Model-free Learning and A
Priori Knowledge [0.0]
侵入テストは、システムに対する攻撃をシミュレートしてシステムのセキュリティを評価するためのセキュリティエクササイズである。
本稿では,フラッグハックの難しさをとらえる形で表現された,簡易な浸透試験問題に焦点を当てる。
エージェントに提供可能な事前知識の異なる形式に依存することで、この課題が緩和される可能性を示す。
論文 参考訳(メタデータ) (2020-05-26T11:23:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。