Fugu-MT 論文翻訳(概要): Secret Collusion among Generative AI Agents

論文の概要: Secret Collusion among Generative AI Agents

arxiv url: http://arxiv.org/abs/2402.07510v3
Date: Fri, 08 Nov 2024 14:46:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.734066
Title: Secret Collusion among Generative AI Agents
Title（参考訳）: 生成型AIエージェント間の秘密の衝突
Authors: Sumeet Ramesh Motwani, Mikhail Baranchuk, Martin Strohmeier, Vijay Bolina, Philip H. S. Torr, Lewis Hammond, Christian Schroeder de Witt,
Abstract要約: 近年の大規模言語モデル(LLM)では,コミュニケーション生成AIエージェントのグループによる共同作業の解決が試みられている。これは、未承認の情報共有に関するプライバシーとセキュリティ上の問題を引き起こす。現代のステガノグラフィー技術は、そのようなダイナミクスを検出しにくくする。
参考スコア（独自算出の注目度）: 43.468790060808914
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent capability increases in large language models (LLMs) open up applications in which groups of communicating generative AI agents solve joint tasks. This poses privacy and security challenges concerning the unauthorised sharing of information, or other unwanted forms of agent coordination. Modern steganographic techniques could render such dynamics hard to detect. In this paper, we comprehensively formalise the problem of secret collusion in systems of generative AI agents by drawing on relevant concepts from both AI and security literature. We study incentives for the use of steganography, and propose a variety of mitigation measures. Our investigations result in a model evaluation framework that systematically tests capabilities required for various forms of secret collusion. We provide extensive empirical results across a range of contemporary LLMs. While the steganographic capabilities of current models remain limited, GPT-4 displays a capability jump suggesting the need for continuous monitoring of steganographic frontier model capabilities. We conclude by laying out a comprehensive research program to mitigate future risks of collusion between generative AI models.
Abstract（参考訳）: 近年の大規模言語モデル(LLM)では,コミュニケーション生成AIエージェントのグループによる共同作業の解決が試みられている。これは、許可されていない情報の共有、その他の不要なエージェント調整に関するプライバシーとセキュリティ上の問題を引き起こす。現代のステガノグラフィー技術は、そのようなダイナミクスを検出しにくくする。本稿では,AIとセキュリティの両文献から関連する概念を抽出し,生成型AIエージェントのシステムにおける秘密共謀の問題を包括的に定式化する。ステガノグラフィーの使用に対するインセンティブについて検討し,様々な緩和策を提案する。本研究は,様々な形態の秘密照合に必要な機能を体系的に検証するモデル評価フレームワークを実現する。現代LSMの広範な実験結果を提供する。現在のモデルではステガノグラフィーの能力は限られているが、GPT-4では、ステガノグラフィー・フロンティアの連続的なモニタリングの必要性が示唆されている。我々は、生成AIモデル間の共謀のリスクを軽減するための総合的な研究プログラムを策定する。

関連論文リスト

Graphs Meet AI Agents: Taxonomy, Progress, and Future Opportunities [117.49715661395294]
データ構造化は、複雑で非組織的なデータをよく構造化された形式に変換することで、有望な役割を果たす。この調査では、グラフがAIエージェントにどのように権限を与えるかを、初めて体系的にレビューする。
論文参考訳（メタデータ） (2025-06-22T12:59:12Z)
Anomaly Detection and Generation with Diffusion Models: A Survey [51.61574868316922]
異常検出(AD)は、サイバーセキュリティ、金融、医療、工業製造など、さまざまな分野において重要な役割を担っている。近年のディープラーニング,特に拡散モデル(DM)の進歩は,大きな関心を集めている。この調査は、研究者や実践者が様々なアプリケーションにまたがる革新的なADソリューションにDMを利用することをガイドすることを目的としている。
論文参考訳（メタデータ） (2025-06-11T03:29:18Z)
SentinelAgent: Graph-based Anomaly Detection in Multi-Agent Systems [11.497269773189254]
大規模言語モデル(LLM)に基づくマルチエージェントシステム(MAS)に適したシステムレベルの異常検出フレームワークを提案する。本稿では,エージェント間相互作用を動的実行グラフとしてモデル化し,ノード,エッジ,パスレベルでの意味的異常検出を可能にするグラフベースのフレームワークを提案する。第2に,セキュリティポリシとコンテキスト推論に基づくMAS実行の監視,解析,介入を行うLLMによる監視エージェントである,プラグイン可能なSentinelAgentを導入する。
論文参考訳（メタデータ） (2025-05-30T04:25:19Z)
GUARDIAN: Safeguarding LLM Multi-Agent Collaborations with Temporal Graph Modeling [2.7211182721830123]
大規模言語モデル (LLM) は、複雑な対話や多ターン対話を行えるインテリジェントエージェントの開発を可能にする。 GUARDIANは、GUARDing Intelligent Agent ColllaboratioNsにおいて、複数の安全上の懸念を検出し緩和するための統一的な方法である。
論文参考訳（メタデータ） (2025-05-25T17:15:55Z)
Assessing Collective Reasoning in Multi-Agent LLMs via Hidden Profile Tasks [5.120446836495469]
我々は,マルチエージェントLLMシステムのための診断テストベッドとして,社会心理学からの隠れプロファイルパラダイムを紹介した。エージェント間で重要な情報を非対称に分配することにより、エージェント間ダイナミクスが集団的推論をどのように支援するか、あるいは妨げるかを明らかにする。協調エージェントは集団的設定において過度に協調する傾向にあるが,矛盾が集団収束を損なうことが示唆された。
論文参考訳（メタデータ） (2025-05-15T19:22:54Z)
Methods and Trends in Detecting Generated Images: A Comprehensive Review [0.552480439325792]
GAN(Generative Adversarial Networks)、拡散モデル(Diffusion Models)、変分オートエンコーダ(VAEs)は、高品質なマルチメディアデータの合成を可能にしている。これらの進歩は、敵の攻撃、非倫理的使用、社会的な危害に関する重大な懸念を引き起こした。
論文参考訳（メタデータ） (2025-02-21T03:16:18Z)
Perspectives for Direct Interpretability in Multi-Agent Deep Reinforcement Learning [0.41783829807634765]
マルチエージェントディープ強化学習(MADRL)は、ロボット工学やゲームにおいて複雑な問題を解くのに効果的であることが証明された。本稿では, 学習モデルから直接, ポストホックな説明を生成することによって, 直接解釈可能であることを提唱する。我々は、関連バックプロパゲーション、知識エディション、モデルステアリング、アクティベーションパッチ、スパースオートエンコーダ、サーキットディスカバリなど、現代的な手法を探求する。
論文参考訳（メタデータ） (2025-02-02T09:15:27Z)
Safety at Scale: A Comprehensive Survey of Large Model Safety [298.05093528230753]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文参考訳（メタデータ） (2025-02-02T05:14:22Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
Hidden in Plain Text: Emergence & Mitigation of Steganographic Collusion in LLMs [0.600808022072121]
他者の不利に対するコラボレーションは、望ましくないエージェント協力の中心的な形態として認識されている。エージェント通信における情報隠蔽(ステガノグラフィー)の使用は、衝突を事実上検出できないものにする可能性がある。このことは、ステガノグラフィーの共謀能力を監視・緩和するための評価フレームワークの必要性を浮き彫りにする。
論文参考訳（メタデータ） (2024-10-02T16:18:33Z)
AI Safety in Generative AI Large Language Models: A Survey [14.737084887928408]
生成的AI能力を示す大規模言語モデル(LLM)は、採用とイノベーションの加速に直面している。生成AI(GAI)は、これらのモデルに関連するリスクと安全性に関する懸念を必然的に高める。本稿では,コンピュータ科学者の視点からAI安全研究の最新の動向について報告する。
論文参考訳（メタデータ） (2024-07-06T09:00:18Z)
On the Challenges and Opportunities in Generative AI [135.2754367149689]
現在の大規模生成AIモデルは、ドメイン間で広く採用されるのを妨げるいくつかの基本的な問題に十分対応していない、と我々は主張する。本研究は、現代の生成型AIパラダイムにおける重要な未解決課題を特定し、その能力、汎用性、信頼性をさらに向上するために取り組まなければならない。
論文参考訳（メタデータ） (2024-02-28T15:19:33Z)
HuntGPT: Integrating Machine Learning-Based Anomaly Detection and Explainable AI with Large Language Models (LLMs) [0.09208007322096533]
我々はランダムフォレスト分類器を応用した特殊な侵入検知ダッシュボードであるHuntGPTを提案する。この論文は、Certified Information Security Manager (CISM) Practice Examsを通じて評価された、システムのアーキテクチャ、コンポーネント、技術的正確性について論じている。その結果、LLMによってサポートされ、XAIと統合された会話エージェントは、侵入検出において堅牢で説明可能な、実行可能なAIソリューションを提供することを示した。
論文参考訳（メタデータ） (2023-09-27T20:58:13Z)
Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文参考訳（メタデータ） (2023-07-31T10:22:33Z)
Discovering Individual Rewards in Collective Behavior through Inverse Multi-Agent Reinforcement Learning [3.4437947384641032]
政外逆マルチエージェント強化学習アルゴリズム(IMARL)を導入する。実演を活用することで,アルゴリズムは報酬関数を自動的に発見し,エージェントの効果的なポリシーを学習する。提案するIMARLアルゴリズムは, 構成成分の観点から, 集合力学を理解するための重要なステップである。
論文参考訳（メタデータ） (2023-05-17T20:07:30Z)
Decentralized Adversarial Training over Graphs [55.28669771020857]
機械学習モデルの敵攻撃に対する脆弱性は、近年、かなりの注目を集めている。この研究は、個々のエージェントが様々な強度摂動空間に従属するグラフ上の敵の訓練を研究する。
論文参考訳（メタデータ） (2023-03-23T15:05:16Z)
A Minimax Approach Against Multi-Armed Adversarial Attacks Detection [31.971443221041174]
多武装の敵攻撃は、最先端の検出器を騙すことに成功している。本稿では,複数の事前学習型検出器のソフト・確率出力をミニマックス・アプローチで集約する手法を提案する。我々は,アグリゲーションが,多腕対人攻撃に対する個々の最先端検出器より一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-02-04T18:21:22Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。