論文の概要: How to evaluate control measures for LLM agents? A trajectory from today to superintelligence
- arxiv url: http://arxiv.org/abs/2504.05259v1
- Date: Mon, 07 Apr 2025 16:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 14:48:25.470936
- Title: How to evaluate control measures for LLM agents? A trajectory from today to superintelligence
- Title(参考訳): LLMエージェントの制御方法の評価法 : 現代から超知能への道筋
- Authors: Tomek Korbak, Mikita Balesni, Buck Shlegeris, Geoffrey Irving,
- Abstract要約: 我々は、AI能力の向上にレッドチームの余裕を適応するためのフレームワークを提案する。
エージェントの実際の能力プロファイルの知識が比例制御評価にどのように役立つかを示す。
- 参考スコア(独自算出の注目度): 4.027240141373031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As LLM agents grow more capable of causing harm autonomously, AI developers will rely on increasingly sophisticated control measures to prevent possibly misaligned agents from causing harm. AI developers could demonstrate that their control measures are sufficient by running control evaluations: testing exercises in which a red team produces agents that try to subvert control measures. To ensure control evaluations accurately capture misalignment risks, the affordances granted to this red team should be adapted to the capability profiles of the agents to be deployed under control measures. In this paper we propose a systematic framework for adapting affordances of red teams to advancing AI capabilities. Rather than assuming that agents will always execute the best attack strategies known to humans, we demonstrate how knowledge of an agents's actual capability profile can inform proportional control evaluations, resulting in more practical and cost-effective control measures. We illustrate our framework by considering a sequence of five fictional models (M1-M5) with progressively advanced capabilities, defining five distinct AI control levels (ACLs). For each ACL, we provide example rules for control evaluation, control measures, and safety cases that could be appropriate. Finally, we show why constructing a compelling AI control safety case for superintelligent LLM agents will require research breakthroughs, highlighting that we might eventually need alternative approaches to mitigating misalignment risk.
- Abstract(参考訳): LLMエージェントが自律的に有害を引き起こす能力が向上するにつれて、AI開発者は、不正に適合する可能性のあるエージェントが害を引き起こすのを防ぐために、より高度な制御手段に頼ることになる。
AI開発者は、コントロール評価を実行することで、コントロール対策が十分であることを示すことができる。
ミスアライメントのリスクを正確に把握するためには、このレッドチームに与えられた余裕を、制御対策の下で展開されるエージェントの能力プロファイルに適合させる必要がある。
本稿では,AI能力の向上にレッドチームの余裕を適応させるための体系的枠組みを提案する。
エージェントが常に人間に知られている最高の攻撃戦略を実行すると仮定するのではなく、エージェントの実際の能力プロファイルの知識が比例的な制御評価を伝達し、より実用的で費用対効果の高い制御措置をもたらすことを実証する。
我々は、段階的に高度な能力を持つ5つのフィクションモデル(M1-M5)のシーケンスを考慮し、5つの異なるAI制御レベル(ACL)を定義することで、我々のフレームワークを説明する。
各ACLは, 適切な制御評価, 制御対策, 安全事例の例を示す。
最後に、超知能なLLMエージェントのための魅力的なAI制御安全ケースを構築するには、研究のブレークスルーが必要であることを示し、最終的には誤調整リスクを軽減するための代替アプローチが必要であることを強調した。
関連論文リスト
- Ctrl-Z: Controlling AI Agents via Resampling [2.505902477669827]
マルチステップシステム管理タスクに挑戦する257のデータセットであるBashBenchを構築した。
各種安全対策により、敵に構築されたAIエージェントが悪意のあるコードを秘密裏にダウンロードして実行することを防ぐことができるかどうかを評価する。
論文 参考訳(メタデータ) (2025-04-14T16:22:11Z) - Do LLMs trust AI regulation? Emerging behaviour of game-theoretic LLM agents [61.132523071109354]
本稿では、異なる規制シナリオ下での戦略選択をモデル化する、AI開発者、規制当局、ユーザ間の相互作用について検討する。
我々の研究は、純粋なゲーム理論エージェントよりも「悲観的」な姿勢を採用する傾向にある戦略的AIエージェントの出現する振る舞いを特定する。
論文 参考訳(メタデータ) (2025-04-11T15:41:21Z) - An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents [75.85554113398626]
我々は、既存のAIエージェントと将来のAIエージェントが、潜在的にプライベートな情報の処理をどの程度制限できるかを評価するために、AgentDAMと呼ばれるベンチマークを開発する。
我々のベンチマークは、現実的なWebインタラクションシナリオをシミュレートし、既存のWebナビゲーションエージェントすべてに適用できる。
論文 参考訳(メタデータ) (2025-03-12T19:30:31Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - A sketch of an AI control safety case [3.753791609999324]
LLMエージェントが障害を引き起こすためのキャパシティが向上するにつれて、AI開発者は、安全であることを正当化するために監視などのコントロール手段をますます頼りにしている。
開発者が"コントロールセーフティケース"を構築する方法についてスケッチします。
この安全ケーススケッチは、危険な能力を持つLLMエージェントが安全にデプロイ可能であることを示すために使用できる、より具体的な議論への一歩です。
論文 参考訳(メタデータ) (2025-01-28T21:52:15Z) - Subversion Strategy Eval: Can language models statelessly strategize to subvert control protocols? [50.62012690460685]
本稿では、制御プロトコルを変換する独自の戦略で、AIシステムがいかにうまく生成し、動作できるかを検討する。
AIシステムは、各コンテキストにおける最適なプランを確実に生成し、適切に調整された確率で行動し、通信せずに他のインスタンスと計画を調整する必要がある。
論文 参考訳(メタデータ) (2024-12-17T02:33:45Z) - Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats [22.843390303635655]
大規模言語モデルが意図的に回避しようとする場合でも,安全対策が有効かどうかを検討する。
マイクロプロトコールの選択には、適応マクロプロトコールを使用する2段階のデプロイメントフレームワークを使用する。
有効なレベルでは、適応的デプロイメント戦略は、非適応的ベースラインに比べて、バックドアの数を80%削減します。
論文 参考訳(メタデータ) (2024-11-26T18:58:20Z) - Criticality and Safety Margins for Reinforcement Learning [53.10194953873209]
我々は,定量化基盤真理とユーザにとっての明確な意義の両面から,批判的枠組みを定めようとしている。
エージェントがn連続的ランダム動作に対するポリシーから逸脱した場合の報酬の減少として真臨界を導入する。
我々はまた、真の臨界と統計的に単調な関係を持つ低オーバーヘッド計量であるプロキシ臨界の概念も導入する。
論文 参考訳(メタデータ) (2024-09-26T21:00:45Z) - Breaking Agents: Compromising Autonomous LLM Agents Through Malfunction Amplification [35.16099878559559]
大規模言語モデル(LLM)は大きな発展を遂げ、現実世界のアプリケーションにデプロイされている。
エージェントが繰り返しまたは無関係なアクションを実行することを誤解させることで誤動作を引き起こす新しいタイプの攻撃を導入する。
実験の結果、これらの攻撃は複数のシナリオで80%以上の障害率を誘導できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T14:35:31Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [70.54226917774933]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。