論文の概要: Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols
- arxiv url: http://arxiv.org/abs/2409.07985v1
- Date: Thu, 12 Sep 2024 12:30:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 16:39:03.533185
- Title: Games for AI Control: Models of Safety Evaluations of AI Deployment Protocols
- Title(参考訳): AIコントロールのためのゲーム:AIデプロイメントプロトコルの安全性評価モデル
- Authors: Charlie Griffin, Louis Thomson, Buck Shlegeris, Alessandro Abate,
- Abstract要約: 本稿では,多目的かつ部分的に観察可能なゲームとして,AI-Control Gamesを紹介した。
我々は、信頼できない言語モデルをプログラミングアシスタントとしてデプロイするためのプロトコルをモデル化、評価、合成するために、フォーマリズムを適用した。
- 参考スコア(独自算出の注目度): 52.40622903199512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To evaluate the safety and usefulness of deployment protocols for untrusted AIs, AI Control uses a red-teaming exercise played between a protocol designer and an adversary. This paper introduces AI-Control Games, a formal decision-making model of the red-teaming exercise as a multi-objective, partially observable, stochastic game. We also introduce methods for finding optimal protocols in AI-Control Games, by reducing them to a set of zero-sum partially observable stochastic games. We apply our formalism to model, evaluate and synthesise protocols for deploying untrusted language models as programming assistants, focusing on Trusted Monitoring protocols, which use weaker language models and limited human assistance. Finally, we demonstrate the utility of our formalism by showcasing improvements over empirical studies in existing settings, evaluating protocols in new settings, and analysing how modelling assumptions affect the safety and usefulness of protocols.
- Abstract(参考訳): 信頼できないAIのデプロイメントプロトコルの安全性と有用性を評価するため、AI Controlでは、プロトコルデザイナと敵の間で行われるレッドチームのエクササイズを使用している。
本稿では,多目的,部分的に観察可能な確率ゲームとして,AI-Control Gamesを紹介した。
また,AI-Control Gamesにおける最適なプロトコルを見つける手法についても紹介する。
我々は、信頼できない言語モデルをプログラミングアシスタントとしてデプロイするためのプロトコルをモデル化し、評価し、合成するために、より弱い言語モデルと制限されたヒューマンアシストを使用する信頼されたモニタリングプロトコルに焦点をあてる。
最後に、既存の環境における経験的研究の改善、新しい環境におけるプロトコルの評価、そして、仮定のモデル化がプロトコルの安全性と有用性にどのように影響するかを分析することで、フォーマリズムの有用性を実証する。
関連論文リスト
- CryptoFormalEval: Integrating LLMs and Formal Verification for Automated Cryptographic Protocol Vulnerability Detection [41.94295877935867]
我々は,新たな暗号プロトコルの脆弱性を自律的に識別する大規模言語モデルの能力を評価するためのベンチマークを導入する。
私たちは、新しい、欠陥のある通信プロトコルのデータセットを作成し、AIエージェントが発見した脆弱性を自動的に検証する方法を設計しました。
論文 参考訳(メタデータ) (2024-11-20T14:16:55Z) - Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality [58.87422943009375]
本稿では,T2Vモデルのための包括的で標準化されたプロトコルであるText-to-Video Human Evaluation (T2VHE)プロトコルを紹介する。
このプロトコルには、明確に定義されたメトリクス、完全なアノテータトレーニング、効果的な動的評価モジュールが含まれている。
我々は、完全なプロトコルワークフロー、動的評価コンポーネントの詳細、アノテーションインターフェースコードを含む、T2VHEプロトコルのセットアップ全体をオープンソースにします。
論文 参考訳(メタデータ) (2024-06-13T06:09:22Z) - Pessimism of the Will, Optimism of the Intellect: Fair Protocols with Malicious but Rational Agents [0.6990493129893112]
フェアネスプロトコルの研究のためのゲームベースのフレームワークを提案する。
強いセキュア均衡の概念に基づいており、ゲーム理論の概念的およびアルゴリズム的ツールボックスを利用する。
論文 参考訳(メタデータ) (2024-05-29T10:15:36Z) - Inferring State Machine from the Protocol Implementation via Large Language Model [18.942047454890847]
大規模言語モデル(LLM)を利用した革新的状態マシン推論手法を提案する。
提案手法の有効性を6つのプロトコル実装で評価した結果,精度90%を超える精度が得られた。
提案手法は, 精度の高い状態マシン推論において重要な一歩を踏み出すだけでなく, プロトコル実装のセキュリティと信頼性向上のための新たな道を開く。
論文 参考訳(メタデータ) (2024-05-01T08:46:36Z) - A Survey and Comparative Analysis of Security Properties of CAN Authentication Protocols [92.81385447582882]
コントロールエリアネットワーク(CAN)バスは車内通信を本質的に安全でないものにしている。
本稿では,CANバスにおける15の認証プロトコルをレビューし,比較する。
実装の容易性に寄与する本質的な運用基準に基づくプロトコルの評価を行う。
論文 参考訳(メタデータ) (2024-01-19T14:52:04Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Byzantine-Robust Federated Learning with Optimal Statistical Rates and
Privacy Guarantees [123.0401978870009]
ほぼ最適な統計率を持つビザンチン・ロバスト・フェデレーション学習プロトコルを提案する。
競合プロトコルに対してベンチマークを行い、提案プロトコルの実証的な優位性を示す。
我々のバケットプロトコルは、プライバシー保証手順と自然に組み合わせて、半正直なサーバに対するセキュリティを導入することができる。
論文 参考訳(メタデータ) (2022-05-24T04:03:07Z) - Towards Controllable Agent in MOBA Games with Generative Modeling [0.45687771576879593]
我々は,人間のように振る舞うアクション制御可能なエージェントを開発するための新しい手法を提案する。
トレーニングエージェントのための潜時アライメントニューラルネットワークモデルと、エージェントの動作を制御するための対応するサンプリングアルゴリズムを考案する。
ゲーム『Honor of Kings』におけるシミュレーションおよびオンライン実験は、提案手法の有効性を実証している。
論文 参考訳(メタデータ) (2021-12-15T13:09:22Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。