Fugu-MT 論文翻訳(概要): Combating Adversarial Attacks with Multi-Agent Debate

論文の概要: Combating Adversarial Attacks with Multi-Agent Debate

arxiv url: http://arxiv.org/abs/2401.05998v1
Date: Thu, 11 Jan 2024 15:57:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-12 13:41:59.604841
Title: Combating Adversarial Attacks with Multi-Agent Debate
Title（参考訳）: マルチエージェント・ディベートによる敵攻撃
Authors: Steffi Chern, Zhen Fan, Andy Liu
Abstract要約: 我々は、現在の最先端言語モデル間のマルチエージェントの議論を実施し、レッドチームアタックに対するモデルの感受性を評価する。マルチエージェントの議論は、ジェイルブレイクや能力の低いモデルが非ジェイルブレイクやより有能なモデルで議論せざるを得ない場合、モデルの毒性を低下させる可能性がある。
参考スコア（独自算出の注目度）: 4.450536872346658
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While state-of-the-art language models have achieved impressive results, they remain susceptible to inference-time adversarial attacks, such as adversarial prompts generated by red teams arXiv:2209.07858. One approach proposed to improve the general quality of language model generations is multi-agent debate, where language models self-evaluate through discussion and feedback arXiv:2305.14325. We implement multi-agent debate between current state-of-the-art language models and evaluate models' susceptibility to red team attacks in both single- and multi-agent settings. We find that multi-agent debate can reduce model toxicity when jailbroken or less capable models are forced to debate with non-jailbroken or more capable models. We also find marginal improvements through the general usage of multi-agent interactions. We further perform adversarial prompt content classification via embedding clustering, and analyze the susceptibility of different models to different types of attack topics.
Abstract（参考訳）: 最先端の言語モデルは印象的な成果を上げているが、赤チームが生成する敵のプロンプトなど、推論時の敵攻撃の影響を受けやすいままである。言語モデル生成の一般的な品質を改善するための1つのアプローチは、言語モデルが議論とフィードバックを通じて自己評価を行うマルチエージェントの議論である。我々は、現在の最先端言語モデル間のマルチエージェントの議論を実装し、シングルエージェントとマルチエージェントの両方でレッドチーム攻撃に対するモデルの感受性を評価する。マルチエージェントの議論は、ジェイルブレイクまたはあまり有能でないモデルが非ジェイルブレイクまたはより有能なモデルで議論せざるを得ない場合、モデル毒性を減らすことができる。また,マルチエージェントインタラクションの一般利用による限界改善も見出す。さらに, 組込みクラスタリングにより, 敵対的プロンプトコンテンツ分類を行い, 異なる種類の攻撃トピックに対する異なるモデルの感受性を解析する。

関連論文リスト

Scaling Laws for Black box Adversarial Attacks [37.744814957775965]
敵の例では、クロスモデル転送可能性を示し、ブラックボックスモデルを攻撃することができる。モデルアンサンブルは、複数のサロゲートモデルを同時に攻撃することで、転送可能性を改善する効果的な戦略である。スケールされた攻撃はセマンティクスにおいてより良い解釈可能性をもたらし、モデルの共通の特徴がキャプチャーされることを示す。
論文参考訳（メタデータ） (2024-11-25T08:14:37Z)
Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T01:51:31Z)
MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate [24.92465108034783]
大規模言語モデル(LLM)は、個別に作業する場合に、現在のベンチマークで例外的な結果を示す。パラメータサイズと推論時間の短縮とともに、それらの能力の進歩は、これらのモデルをエージェントとしての使用を促進する。敵の影響下での議論を通じて協調するモデルのネットワークの挙動を評価する。
論文参考訳（メタデータ） (2024-06-20T20:09:37Z)
A Generative Adversarial Attack for Multilingual Text Classifiers [10.993289209465129]
そこで本稿では,多言語パラフレーズモデルに逆方向の目的を付与する手法を提案する。トレーニングの目的は、テキストの品質と言語の一貫性を保証するために、事前訓練されたモデルのセットを含む。 2つの多言語データセットと5つの言語に対する実験的な検証により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-01-16T10:14:27Z)
On the Discussion of Large Language Models: Symmetry of Agents and Interplay with Prompts [51.3324922038486]
本稿では,プロンプトの相互作用と議論機構の実証結果について報告する。また、コンピュートとマージに基づくスケーラブルな議論機構も提案している。
論文参考訳（メタデータ） (2023-11-13T04:56:48Z)
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。 GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文参考訳（メタデータ） (2021-11-04T12:59:55Z)
"What's in the box?!": Deflecting Adversarial Attacks by Randomly Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文参考訳（メタデータ） (2021-02-09T20:07:13Z)
On the Transferability of Adversarial Attacksagainst Neural Text Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文参考訳（メタデータ） (2020-11-17T10:45:05Z)
Variational Autoencoders for Opponent Modeling in Multi-Agent Systems [9.405879323049659]
マルチエージェントシステムは、共有環境における複数のエージェントの相互作用から生じる複雑な振る舞いを示す。本研究は,マルチエージェントシステムにおけるエージェントの制御に関心を持ち,ポリシーを定めているエージェントとのインタラクションをうまく学習する。他のエージェント(反対者)の振る舞いをモデル化することは、システム内のエージェントの相互作用を理解するのに不可欠である。
論文参考訳（メタデータ） (2020-01-29T13:38:59Z)
Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文参考訳（メタデータ） (2020-01-04T17:31:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。