論文の概要: Secret Collusion Among Generative AI Agents
- arxiv url: http://arxiv.org/abs/2402.07510v1
- Date: Mon, 12 Feb 2024 09:31:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 14:56:23.723723
- Title: Secret Collusion Among Generative AI Agents
- Title(参考訳): 生成aiエージェント間の秘密結束
- Authors: Sumeet Ramesh Motwani, Mikhail Baranchuk, Martin Strohmeier, Vijay
Bolina, Philip H.S. Torr, Lewis Hammond, Christian Schroeder de Witt
- Abstract要約: 大規模言語モデル(LLM)の最近の能力向上は、生成AIエージェントを通信するチームが共同作業を解決するアプリケーションを開く。
これは、未承認の情報共有に関するプライバシーとセキュリティ上の問題を引き起こす。
現代のステガノグラフィー技術は、そのようなダイナミクスを検出しにくくする。
- 参考スコア(独自算出の注目度): 45.64856386399717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent capability increases in large language models (LLMs) open up
applications in which teams of communicating generative AI agents solve joint
tasks. This poses privacy and security challenges concerning the unauthorised
sharing of information, or other unwanted forms of agent coordination. Modern
steganographic techniques could render such dynamics hard to detect. In this
paper, we comprehensively formalise the problem of secret collusion in systems
of generative AI agents by drawing on relevant concepts from both the AI and
security literature. We study incentives for the use of steganography, and
propose a variety of mitigation measures. Our investigations result in a model
evaluation framework that systematically tests capabilities required for
various forms of secret collusion. We provide extensive empirical results
across a range of contemporary LLMs. While the steganographic capabilities of
current models remain limited, GPT-4 displays a capability jump suggesting the
need for continuous monitoring of steganographic frontier model capabilities.
We conclude by laying out a comprehensive research program to mitigate future
risks of collusion between generative AI models.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の能力向上は、生成AIエージェントを通信するチームが共同作業を解決するアプリケーションを開く。
これは、情報の不正な共有や、その他の不要なエージェントの調整に関するプライバシーとセキュリティの課題をもたらす。
現代のステガノグラフィー技術はそのようなダイナミクスを検出しにくくする。
本稿では,AIとセキュリティの両文献から関連する概念を抽出し,生成AIエージェントのシステムにおける秘密共謀の問題を包括的に定式化する。
ステガノグラフィーの使用に対するインセンティブについて検討し,様々な緩和策を提案する。
調査の結果,様々な形態の秘密結束に必要な機能を体系的にテストするモデル評価フレームワークが得られた。
我々は、幅広い現代のllmで広範な実験結果を提供する。
現在のモデルのステガノグラフィー能力は限られているが、gpt-4は、ステガノグラフィーのフロンティアモデルの能力の継続的な監視の必要性を示唆する能力ジャンプを表示する。
我々は、生成AIモデル間の共謀のリスクを軽減するための総合的な研究プログラムを策定する。
関連論文リスト
- Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Hidden in Plain Text: Emergence & Mitigation of Steganographic Collusion in LLMs [0.600808022072121]
他者の不利に対するコラボレーションは、望ましくないエージェント協力の中心的な形態として認識されている。
エージェント通信における情報隠蔽(ステガノグラフィー)の使用は、衝突を事実上検出できないものにする可能性がある。
このことは、ステガノグラフィーの共謀能力を監視・緩和するための評価フレームワークの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-10-02T16:18:33Z) - AI Safety in Generative AI Large Language Models: A Survey [14.737084887928408]
生成的AI能力を示す大規模言語モデル(LLM)は、採用とイノベーションの加速に直面している。
生成AI(GAI)は、これらのモデルに関連するリスクと安全性に関する懸念を必然的に高める。
本稿では,コンピュータ科学者の視点からAI安全研究の最新の動向について報告する。
論文 参考訳(メタデータ) (2024-07-06T09:00:18Z) - On the Challenges and Opportunities in Generative AI [135.2754367149689]
現在の大規模生成AIモデルは、ドメイン間で広く採用されるのを妨げるいくつかの基本的な問題に十分対応していない、と我々は主張する。
本研究は、現代の生成型AIパラダイムにおける重要な未解決課題を特定し、その能力、汎用性、信頼性をさらに向上するために取り組まなければならない。
論文 参考訳(メタデータ) (2024-02-28T15:19:33Z) - HuntGPT: Integrating Machine Learning-Based Anomaly Detection and Explainable AI with Large Language Models (LLMs) [0.09208007322096533]
我々はランダムフォレスト分類器を応用した特殊な侵入検知ダッシュボードであるHuntGPTを提案する。
この論文は、Certified Information Security Manager (CISM) Practice Examsを通じて評価された、システムのアーキテクチャ、コンポーネント、技術的正確性について論じている。
その結果、LLMによってサポートされ、XAIと統合された会話エージェントは、侵入検出において堅牢で説明可能な、実行可能なAIソリューションを提供することを示した。
論文 参考訳(メタデータ) (2023-09-27T20:58:13Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Discovering Individual Rewards in Collective Behavior through Inverse
Multi-Agent Reinforcement Learning [3.4437947384641032]
政外逆マルチエージェント強化学習アルゴリズム(IMARL)を導入する。
実演を活用することで,アルゴリズムは報酬関数を自動的に発見し,エージェントの効果的なポリシーを学習する。
提案するIMARLアルゴリズムは, 構成成分の観点から, 集合力学を理解するための重要なステップである。
論文 参考訳(メタデータ) (2023-05-17T20:07:30Z) - Decentralized Adversarial Training over Graphs [55.28669771020857]
機械学習モデルの敵攻撃に対する脆弱性は、近年、かなりの注目を集めている。
この研究は、個々のエージェントが様々な強度摂動空間に従属するグラフ上の敵の訓練を研究する。
論文 参考訳(メタデータ) (2023-03-23T15:05:16Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。