論文の概要: Combating Adversarial Attacks with Multi-Agent Debate
- arxiv url: http://arxiv.org/abs/2401.05998v1
- Date: Thu, 11 Jan 2024 15:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 13:41:59.604841
- Title: Combating Adversarial Attacks with Multi-Agent Debate
- Title(参考訳): マルチエージェント・ディベートによる敵攻撃
- Authors: Steffi Chern, Zhen Fan, Andy Liu
- Abstract要約: 我々は、現在の最先端言語モデル間のマルチエージェントの議論を実施し、レッドチームアタックに対するモデルの感受性を評価する。
マルチエージェントの議論は、ジェイルブレイクや能力の低いモデルが非ジェイルブレイクやより有能なモデルで議論せざるを得ない場合、モデルの毒性を低下させる可能性がある。
- 参考スコア(独自算出の注目度): 4.450536872346658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While state-of-the-art language models have achieved impressive results, they
remain susceptible to inference-time adversarial attacks, such as adversarial
prompts generated by red teams arXiv:2209.07858. One approach proposed to
improve the general quality of language model generations is multi-agent
debate, where language models self-evaluate through discussion and feedback
arXiv:2305.14325. We implement multi-agent debate between current
state-of-the-art language models and evaluate models' susceptibility to red
team attacks in both single- and multi-agent settings. We find that multi-agent
debate can reduce model toxicity when jailbroken or less capable models are
forced to debate with non-jailbroken or more capable models. We also find
marginal improvements through the general usage of multi-agent interactions. We
further perform adversarial prompt content classification via embedding
clustering, and analyze the susceptibility of different models to different
types of attack topics.
- Abstract(参考訳): 最先端の言語モデルは印象的な成果を上げているが、赤チームが生成する敵のプロンプトなど、推論時の敵攻撃の影響を受けやすいままである。
言語モデル生成の一般的な品質を改善するための1つのアプローチは、言語モデルが議論とフィードバックを通じて自己評価を行うマルチエージェントの議論である。
我々は、現在の最先端言語モデル間のマルチエージェントの議論を実装し、シングルエージェントとマルチエージェントの両方でレッドチーム攻撃に対するモデルの感受性を評価する。
マルチエージェントの議論は、ジェイルブレイクまたはあまり有能でないモデルが非ジェイルブレイクまたはより有能なモデルで議論せざるを得ない場合、モデル毒性を減らすことができる。
また,マルチエージェントインタラクションの一般利用による限界改善も見出す。
さらに, 組込みクラスタリングにより, 敵対的プロンプトコンテンツ分類を行い, 異なる種類の攻撃トピックに対する異なるモデルの感受性を解析する。
関連論文リスト
- Scaling Laws for Black box Adversarial Attacks [37.744814957775965]
敵の例では、クロスモデル転送可能性を示し、ブラックボックスモデルを攻撃することができる。
モデルアンサンブルは、複数のサロゲートモデルを同時に攻撃することで、転送可能性を改善する効果的な戦略である。
スケールされた攻撃はセマンティクスにおいてより良い解釈可能性をもたらし、モデルの共通の特徴がキャプチャーされることを示す。
論文 参考訳(メタデータ) (2024-11-25T08:14:37Z) - Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate [24.92465108034783]
大規模言語モデル(LLM)は、個別に作業する場合に、現在のベンチマークで例外的な結果を示す。
パラメータサイズと推論時間の短縮とともに、それらの能力の進歩は、これらのモデルをエージェントとしての使用を促進する。
敵の影響下での議論を通じて協調するモデルのネットワークの挙動を評価する。
論文 参考訳(メタデータ) (2024-06-20T20:09:37Z) - A Generative Adversarial Attack for Multilingual Text Classifiers [10.993289209465129]
そこで本稿では,多言語パラフレーズモデルに逆方向の目的を付与する手法を提案する。
トレーニングの目的は、テキストの品質と言語の一貫性を保証するために、事前訓練されたモデルのセットを含む。
2つの多言語データセットと5つの言語に対する実験的な検証により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-01-16T10:14:27Z) - On the Discussion of Large Language Models: Symmetry of Agents and
Interplay with Prompts [51.3324922038486]
本稿では,プロンプトの相互作用と議論機構の実証結果について報告する。
また、コンピュートとマージに基づくスケーラブルな議論機構も提案している。
論文 参考訳(メタデータ) (2023-11-13T04:56:48Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - "What's in the box?!": Deflecting Adversarial Attacks by Randomly
Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。
我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文 参考訳(メタデータ) (2021-02-09T20:07:13Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Variational Autoencoders for Opponent Modeling in Multi-Agent Systems [9.405879323049659]
マルチエージェントシステムは、共有環境における複数のエージェントの相互作用から生じる複雑な振る舞いを示す。
本研究は,マルチエージェントシステムにおけるエージェントの制御に関心を持ち,ポリシーを定めているエージェントとのインタラクションをうまく学習する。
他のエージェント(反対者)の振る舞いをモデル化することは、システム内のエージェントの相互作用を理解するのに不可欠である。
論文 参考訳(メタデータ) (2020-01-29T13:38:59Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。