論文の概要: Hidden in Plain Text: Emergence & Mitigation of Steganographic Collusion in LLMs
- arxiv url: http://arxiv.org/abs/2410.03768v1
- Date: Wed, 02 Oct 2024 16:18:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 18:01:42.109213
- Title: Hidden in Plain Text: Emergence & Mitigation of Steganographic Collusion in LLMs
- Title(参考訳): 平文に隠された電顕衝突の創発と軽減
- Authors: Yohan Mathew, Ollie Matthews, Robert McCarthy, Joan Velja, Christian Schroeder de Witt, Dylan Cope, Nandi Schoots,
- Abstract要約: 他者の不利に対するコラボレーションは、望ましくないエージェント協力の中心的な形態として認識されている。
エージェント通信における情報隠蔽(ステガノグラフィー)の使用は、衝突を事実上検出できないものにする可能性がある。
このことは、ステガノグラフィーの共謀能力を監視・緩和するための評価フレームワークの必要性を浮き彫りにする。
- 参考スコア(独自算出の注目度): 0.600808022072121
- License:
- Abstract: The rapid proliferation of frontier model agents promises significant societal advances but also raises concerns about systemic risks arising from unsafe interactions. Collusion to the disadvantage of others has been identified as a central form of undesirable agent cooperation. The use of information hiding (steganography) in agent communications could render collusion practically undetectable. This underscores the need for evaluation frameworks to monitor and mitigate steganographic collusion capabilities. We address a crucial gap in the literature by demonstrating, for the first time, that robust steganographic collusion in LLMs can arise indirectly from optimization pressure. To investigate this problem we design two approaches -- a gradient-based reinforcement learning (GBRL) method and an in-context reinforcement learning (ICRL) method -- for reliably eliciting sophisticated LLM-generated linguistic text steganography. Importantly, we find that emergent steganographic collusion can be robust to both passive steganalytic oversight of model outputs and active mitigation through communication paraphrasing. We contribute a novel model evaluation framework and discuss limitations and future work. Our findings imply that effective risk mitigation from steganographic collusion post-deployment requires innovation in passive and active oversight techniques.
- Abstract(参考訳): フロンティアモデルエージェントの急激な増殖は、社会的な進歩を約束する一方で、安全でない相互作用から生じるシステム的リスクへの懸念も引き起こす。
他者の不利に対するコラボレーションは、望ましくないエージェント協力の中心的な形態として認識されている。
エージェント通信における情報隠蔽(ステガノグラフィー)の使用は、衝突を事実上検出できないものにする可能性がある。
このことは、ステガノグラフィーの共謀能力を監視・緩和するための評価フレームワークの必要性を浮き彫りにする。
本稿は, LLMにおける強靭なステガノグラフィーの衝突が, 最適化圧力から間接的に起こることを初めて示すことによって, 文献の重大なギャップに対処する。
そこで本研究では,高度言語テキストステガノグラフィーを確実に導入するための2つの手法,GBRL法とICRL法を設計した。
重要なこととして、緊急ステガノグラフィーの衝突は、モデル出力の受動的ステガナティックな監視と、通信パラフレーズによるアクティブな緩和の両方に頑健であることが判明した。
我々は,新しいモデル評価フレームワークを提供し,限界と今後の課題について議論する。
本研究は, ステガノグラフィーによる再デプロイ後の効果的なリスク軽減には, 受動的かつアクティブな監視手法の革新が必要であることを示唆する。
関連論文リスト
- Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models [12.920884182101142]
大規模言語モデル(LLM)は、実世界のアプリケーションで普及し、素晴らしいテキスト生成性能を示している。
LLMベースのチャットシステムは、対話的に振る舞うためには、事前に定義された構造に従って、事前のチャット履歴を入力のコンテキストとして統合する必要がある。
本稿では,目標モデルの事前知識を必要とせずに,LLM会話にユーザ提供履歴を注入するための体系的手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T16:36:47Z) - Secret Collusion among Generative AI Agents [43.468790060808914]
近年の大規模言語モデル(LLM)では,コミュニケーション生成AIエージェントのグループによる共同作業の解決が試みられている。
これは、未承認の情報共有に関するプライバシーとセキュリティ上の問題を引き起こす。
現代のステガノグラフィー技術は、そのようなダイナミクスを検出しにくくする。
論文 参考訳(メタデータ) (2024-02-12T09:31:21Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z) - Disentangled Contrastive Collaborative Filtering [36.400303346450514]
グラフコントラスト学習(GCL)は、監督ラベル不足問題に対処する上で、強力な性能を示した。
本稿では,自己監督型拡張による意図的ゆがみを実現するために,DCCF(Disentangled Contrasative Collaborative Filtering framework)を提案する。
我々のDCCFは、絡み合った自己超越信号からより微細な潜伏因子を蒸留できるだけでなく、増大による騒音を軽減することができる。
論文 参考訳(メタデータ) (2023-05-04T11:53:38Z) - Towards Imperceptible Document Manipulations against Neural Ranking
Models [13.777462017782659]
本稿では,Imberceptible DocumEnt Manipulation (IDEM) というフレームワークを提案する。
IDEMは、BARTのような確立された生成言語モデルに、容易に検出できるエラーを発生させることなく、接続文を生成するよう指示する。
対象文書の流速と正しさを保ちながら, IDEM が強いベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2023-05-03T02:09:29Z) - Proactive Pseudo-Intervention: Causally Informed Contrastive Learning
For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。
PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。
また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文 参考訳(メタデータ) (2020-12-06T20:30:26Z) - Detecting Cross-Modal Inconsistency to Defend Against Neural Fake News [57.9843300852526]
我々は、画像やキャプションを含む機械生成ニュースに対して、より現実的で挑戦的な対策を導入する。
敵が悪用できる可能性のある弱点を特定するために、4つの異なる種類の生成された記事からなるNeuralNewsデータセットを作成します。
ユーザ実験から得られた貴重な知見に加えて,視覚的意味的不整合の検出にもとづく比較的効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-09-16T14:13:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。