論文の概要: Secret Collusion among Generative AI Agents
- arxiv url: http://arxiv.org/abs/2402.07510v2
- Date: Wed, 28 Aug 2024 15:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 21:09:20.829071
- Title: Secret Collusion among Generative AI Agents
- Title(参考訳): 生成型AIエージェント間の秘密の衝突
- Authors: Sumeet Ramesh Motwani, Mikhail Baranchuk, Martin Strohmeier, Vijay Bolina, Philip H. S. Torr, Lewis Hammond, Christian Schroeder de Witt,
- Abstract要約: 近年の大規模言語モデル(LLM)では,コミュニケーション生成AIエージェントのグループによる共同作業の解決が試みられている。
これは、未承認の情報共有に関するプライバシーとセキュリティ上の問題を引き起こす。
現代のステガノグラフィー技術は、そのようなダイナミクスを検出しにくくする。
- 参考スコア(独自算出の注目度): 43.468790060808914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent capability increases in large language models (LLMs) open up applications in which groups of communicating generative AI agents solve joint tasks. This poses privacy and security challenges concerning the unauthorised sharing of information, or other unwanted forms of agent coordination. Modern steganographic techniques could render such dynamics hard to detect. In this paper, we comprehensively formalise the problem of secret collusion in systems of generative AI agents by drawing on relevant concepts from both AI and security literature. We study incentives for the use of steganography, and propose a variety of mitigation measures. Our investigations result in a model evaluation framework that systematically tests capabilities required for various forms of secret collusion. We provide extensive empirical results across a range of contemporary LLMs. While the steganographic capabilities of current models remain limited, GPT-4 displays a capability jump suggesting the need for continuous monitoring of steganographic frontier model capabilities. We conclude by laying out a comprehensive research program to mitigate future risks of collusion between generative AI models.
- Abstract(参考訳): 近年の大規模言語モデル(LLM)では,コミュニケーション生成AIエージェントのグループによる共同作業の解決が試みられている。
これは、許可されていない情報の共有、その他の不要なエージェント調整に関するプライバシーとセキュリティ上の問題を引き起こす。
現代のステガノグラフィー技術は、そのようなダイナミクスを検出しにくくする。
本稿では,AIとセキュリティの両文献から関連する概念を抽出し,生成型AIエージェントのシステムにおける秘密共謀の問題を包括的に定式化する。
ステガノグラフィーの使用に対するインセンティブについて検討し,様々な緩和策を提案する。
本研究は,様々な形態の秘密照合に必要な機能を体系的に検証するモデル評価フレームワークを実現する。
現代LSMの広範な実験結果を提供する。
現在のモデルではステガノグラフィーの能力は限られているが、GPT-4では、ステガノグラフィー・フロンティアの連続的なモニタリングの必要性が示唆されている。
我々は、生成AIモデル間の共謀のリスクを軽減するための総合的な研究プログラムを策定する。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Hidden in Plain Text: Emergence & Mitigation of Steganographic Collusion in LLMs [0.600808022072121]
他者の不利に対するコラボレーションは、望ましくないエージェント協力の中心的な形態として認識されている。
エージェント通信における情報隠蔽(ステガノグラフィー)の使用は、衝突を事実上検出できないものにする可能性がある。
このことは、ステガノグラフィーの共謀能力を監視・緩和するための評価フレームワークの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-02T16:18:33Z) - AI Safety in Generative AI Large Language Models: A Survey [14.737084887928408]
生成的AI能力を示す大規模言語モデル(LLM)は、採用とイノベーションの加速に直面している。
生成AI(GAI)は、これらのモデルに関連するリスクと安全性に関する懸念を必然的に高める。
本稿では,コンピュータ科学者の視点からAI安全研究の最新の動向について報告する。
論文 参考訳(メタデータ) (2024-07-06T09:00:18Z) - On the Challenges and Opportunities in Generative AI [135.2754367149689]
現在の大規模生成AIモデルは、ドメイン間で広く採用されるのを妨げるいくつかの基本的な問題に十分対応していない、と我々は主張する。
本研究は、現代の生成型AIパラダイムにおける重要な未解決課題を特定し、その能力、汎用性、信頼性をさらに向上するために取り組まなければならない。
論文 参考訳(メタデータ) (2024-02-28T15:19:33Z) - HuntGPT: Integrating Machine Learning-Based Anomaly Detection and Explainable AI with Large Language Models (LLMs) [0.09208007322096533]
我々はランダムフォレスト分類器を応用した特殊な侵入検知ダッシュボードであるHuntGPTを提案する。
この論文は、Certified Information Security Manager (CISM) Practice Examsを通じて評価された、システムのアーキテクチャ、コンポーネント、技術的正確性について論じている。
その結果、LLMによってサポートされ、XAIと統合された会話エージェントは、侵入検出において堅牢で説明可能な、実行可能なAIソリューションを提供することを示した。
論文 参考訳(メタデータ) (2023-09-27T20:58:13Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Discovering Individual Rewards in Collective Behavior through Inverse
Multi-Agent Reinforcement Learning [3.4437947384641032]
政外逆マルチエージェント強化学習アルゴリズム(IMARL)を導入する。
実演を活用することで,アルゴリズムは報酬関数を自動的に発見し,エージェントの効果的なポリシーを学習する。
提案するIMARLアルゴリズムは, 構成成分の観点から, 集合力学を理解するための重要なステップである。
論文 参考訳(メタデータ) (2023-05-17T20:07:30Z) - Decentralized Adversarial Training over Graphs [55.28669771020857]
機械学習モデルの敵攻撃に対する脆弱性は、近年、かなりの注目を集めている。
この研究は、個々のエージェントが様々な強度摂動空間に従属するグラフ上の敵の訓練を研究する。
論文 参考訳(メタデータ) (2023-03-23T15:05:16Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。