論文の概要: UK AISI Alignment Evaluation Case-Study
- arxiv url: http://arxiv.org/abs/2604.00788v1
- Date: Wed, 01 Apr 2026 11:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.965996
- Title: UK AISI Alignment Evaluation Case-Study
- Title(参考訳): 英国AISIアライメント評価ケーススタディ
- Authors: Alexandra Souly, Robert Kirk, Jacob Merizian, Abby D'Cruz, Xander Davies,
- Abstract要約: 我々は、フロンティアモデルがAIラボ内でコーディングアシスタントとしてデプロイされる際の安全性研究を妨害するかどうかを評価する。
4つのフロンティアモデルにメソッドを適用すると、研究妨害の確認例は見つからない。
シナリオカバレッジや評価意識などの制限について論じる。
- 参考スコア(独自算出の注目度): 40.43709649091151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This technical report presents methods developed by the UK AI Security Institute for assessing whether advanced AI systems reliably follow intended goals. Specifically, we evaluate whether frontier models sabotage safety research when deployed as coding assistants within an AI lab. Applying our methods to four frontier models, we find no confirmed instances of research sabotage. However, we observe that Claude Opus 4.5 Preview (a pre-release snapshot of Opus 4.5) and Sonnet 4.5 frequently refuse to engage with safety-relevant research tasks, citing concerns about research direction, involvement in self-training, and research scope. We additionally find that Opus 4.5 Preview shows reduced unprompted evaluation awareness compared to Sonnet 4.5, while both models can distinguish evaluation from deployment scenarios when prompted. Our evaluation framework builds on Petri, an open-source LLM auditing tool, with a custom scaffold designed to simulate realistic internal deployment of a coding agent. We validate that this scaffold produces trajectories that all tested models fail to reliably distinguish from real deployment data. We test models across scenarios varying in research motivation, activity type, replacement threat, and model autonomy. Finally, we discuss limitations including scenario coverage and evaluation awareness.
- Abstract(参考訳): この技術報告では、英国AIセキュリティ研究所が、先進的なAIシステムが意図した目標に確実に従うかどうかを評価するために開発した手法を提示する。
具体的には、AIラボ内でコーディングアシスタントとしてデプロイされたフロンティアモデルが安全性研究を妨害するかどうかを評価する。
4つのフロンティアモデルにメソッドを適用すると、研究妨害の確認例は見つからない。
しかし、Claude Opus 4.5 Preview(Opus 4.5のプレリリーススナップショット)とSonnet 4.5は、研究の方向性、自己学習への関与、研究範囲など、安全関連の研究課題への関与を頻繁に拒否している。
さらに、Opus 4.5 Previewは、Sonnet 4.5と比較して、未確認評価の認知度を低下させるが、どちらのモデルも、誘導時のデプロイメントシナリオと評価を区別できる。
我々の評価フレームワークはオープンソースのLCM監査ツールであるPetri上に構築されており、コーディングエージェントの実際の内部配置をシミュレートするカスタムな足場が設計されている。
この足場がすべてのテストモデルで実際のデプロイメントデータと確実に区別できないトラジェクトリを生成することを検証する。
研究モチベーションや活動タイプ,代替脅威,モデル自律性など,さまざまなシナリオでモデルをテストします。
最後に,シナリオカバレッジや評価意識といった制約について論じる。
関連論文リスト
- CTI-REALM: Benchmark to Evaluate Agent Performance on Security Detection Rule Generation Capabilities [0.0]
CTI-REALMは、AIエージェントがサイバー脅威インテリジェンス(CTI)を解釈し、検出ルールを開発する能力を評価するために設計されたベンチマークである。
この研究は、AIエージェントが検出エンジニアリングの労働集約的な側面をサポートする可能性を実証している。
論文 参考訳(メタデータ) (2026-03-13T18:48:40Z) - Inference-Time Scaling of Verification: Self-Evolving Deep Research Agents via Test-Time Rubric-Guided Verification [71.98473277917962]
近年のDeep Research Agents (DRA) の進歩は、自動知識発見と問題解決に変化をもたらしている。
本稿では,政策モデルのアウトプットを反復的に検証することで,エージェントの能力を自己進化させる手法を提案する。
検証の非対称性を生かしたルーブリックスに基づく結果報酬検証器であるDeepVerifierを提案する。
論文 参考訳(メタデータ) (2026-01-22T09:47:31Z) - Steering Evaluation-Aware Language Models to Act Like They Are Deployed [10.907568434049102]
大規模言語モデル(LLM)は、いつ評価されるかを検出し、より整列するように振る舞いを調整する。
LLMのアクティベーションにステアリングベクトルを加えることで、評価の認識が抑えられ、評価中にデプロイされるようなモデル動作が実現できることを示す。
以上の結果から,AI評価装置は,モデルがデプロイされているように動作させることで,安全性評価の信頼性を向上させることができる可能性が示唆された。
論文 参考訳(メタデータ) (2025-10-23T12:29:16Z) - Large Language Models Often Know When They Are Being Evaluated [0.015534429177540245]
そこで本研究では,フロンティア言語モデルを用いて,評価や実世界の展開に起因した書き起こしを正確に分類できるかどうかを検討する。
我々は61の異なるデータセットから1000のプロンプトと書き起こしのベンチマークを構築した。
以上の結果から,フロンティアモデルにはまだ評価・認識レベルがかなり高いことが示唆された。
論文 参考訳(メタデータ) (2025-05-28T12:03:09Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - RCAgent: Cloud Root Cause Analysis by Autonomous Agents with Tool-Augmented Large Language Models [46.476439550746136]
近年,クラウド根本原因分析(RCA)における言語モデル (LLM) の適用が活発に検討されている。
RCAgentは、実用的でプライバシに配慮した産業RCA利用のためのツール強化LDM自律エージェントフレームワークである。
RCAgentはGPTファミリではなく、内部的にデプロイされたモデル上で動作し、フリーフォームのデータ収集とツールによる包括的な分析を行うことができる。
論文 参考訳(メタデータ) (2023-10-25T03:53:31Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Auditing AI models for Verified Deployment under Semantic Specifications [65.12401653917838]
AuditAIは、解釈可能な形式検証とスケーラビリティのギャップを埋める。
AuditAIは、画素空間の摂動のみを用いた検証の限界に対処しながら、検証と認定トレーニングのための制御されたバリエーションを得られるかを示す。
論文 参考訳(メタデータ) (2021-09-25T22:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。