論文の概要: Hidden in Plain Text: Emergence & Mitigation of Steganographic Collusion in LLMs
- arxiv url: http://arxiv.org/abs/2410.03768v1
- Date: Wed, 2 Oct 2024 16:18:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 16:30:33.272905
- Title: Hidden in Plain Text: Emergence & Mitigation of Steganographic Collusion in LLMs
- Title(参考訳): 平文に隠された電顕衝突の創発と軽減
- Authors: Yohan Mathew, Ollie Matthews, Robert McCarthy, Joan Velja, Christian Schroeder de Witt, Dylan Cope, Nandi Schoots,
- Abstract要約: 他者の不利に対するコラボレーションは、望ましくないエージェント協力の中心的な形態として認識されている。
エージェント通信における情報隠蔽(ステガノグラフィー)の使用は、衝突を事実上検出できないものにする可能性がある。
このことは、ステガノグラフィーの共謀能力を監視・緩和するための評価フレームワークの必要性を浮き彫りにする。
- 参考スコア(独自算出の注目度): 0.600808022072121
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid proliferation of frontier model agents promises significant societal advances but also raises concerns about systemic risks arising from unsafe interactions. Collusion to the disadvantage of others has been identified as a central form of undesirable agent cooperation. The use of information hiding (steganography) in agent communications could render collusion practically undetectable. This underscores the need for evaluation frameworks to monitor and mitigate steganographic collusion capabilities. We address a crucial gap in the literature by demonstrating, for the first time, that robust steganographic collusion in LLMs can arise indirectly from optimization pressure. To investigate this problem we design two approaches -- a gradient-based reinforcement learning (GBRL) method and an in-context reinforcement learning (ICRL) method -- for reliably eliciting sophisticated LLM-generated linguistic text steganography. Importantly, we find that emergent steganographic collusion can be robust to both passive steganalytic oversight of model outputs and active mitigation through communication paraphrasing. We contribute a novel model evaluation framework and discuss limitations and future work. Our findings imply that effective risk mitigation from steganographic collusion post-deployment requires innovation in passive and active oversight techniques.
- Abstract(参考訳): フロンティアモデルエージェントの急激な増殖は、社会的な進歩を約束する一方で、安全でない相互作用から生じるシステム的リスクへの懸念も引き起こす。
他者の不利に対するコラボレーションは、望ましくないエージェント協力の中心的な形態として認識されている。
エージェント通信における情報隠蔽(ステガノグラフィー)の使用は、衝突を事実上検出できないものにする可能性がある。
このことは、ステガノグラフィーの共謀能力を監視・緩和するための評価フレームワークの必要性を浮き彫りにする。
本稿は, LLMにおける強靭なステガノグラフィーの衝突が, 最適化圧力から間接的に起こることを初めて示すことによって, 文献の重大なギャップに対処する。
そこで本研究では,高度言語テキストステガノグラフィーを確実に導入するための2つの手法,GBRL法とICRL法を設計した。
重要なこととして、緊急ステガノグラフィーの衝突は、モデル出力の受動的ステガナティックな監視と、通信パラフレーズによるアクティブな緩和の両方に頑健であることが判明した。
我々は,新しいモデル評価フレームワークを提供し,限界と今後の課題について議論する。
本研究は, ステガノグラフィーによる再デプロイ後の効果的なリスク軽減には, 受動的かつアクティブな監視手法の革新が必要であることを示唆する。
関連論文リスト
- Enhanced Online Grooming Detection Employing Context Determination and Message-Level Analysis [2.424910201171407]
オンライングルーミング(オンライングルーミング、OG)は、ソーシャルメディアやメッセージプラットフォーム上での子供の脆弱性を危うくする詐欺的手法を用いて、オンラインで子どもが優先的に直面している一般的な脅威である。
既存のソリューションは、リアルタイムのOG検出に効果的に対応しない児童虐待メディアの署名分析に重点を置いている。
本稿では,OG攻撃が複雑であり,大人と子供のコミュニケーションパターンの特定が必要であることを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:37:34Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Secret Collusion among Generative AI Agents [43.468790060808914]
近年の大規模言語モデル(LLM)では,コミュニケーション生成AIエージェントのグループによる共同作業の解決が試みられている。
これは、未承認の情報共有に関するプライバシーとセキュリティ上の問題を引き起こす。
現代のステガノグラフィー技術は、そのようなダイナミクスを検出しにくくする。
論文 参考訳(メタデータ) (2024-02-12T09:31:21Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Towards Imperceptible Document Manipulations against Neural Ranking
Models [13.777462017782659]
本稿では,Imberceptible DocumEnt Manipulation (IDEM) というフレームワークを提案する。
IDEMは、BARTのような確立された生成言語モデルに、容易に検出できるエラーを発生させることなく、接続文を生成するよう指示する。
対象文書の流速と正しさを保ちながら, IDEM が強いベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2023-05-03T02:09:29Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。