論文の概要: MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate
- arxiv url: http://arxiv.org/abs/2406.14711v2
- Date: Wed, 26 Jun 2024 16:05:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 18:06:11.878675
- Title: MultiAgent Collaboration Attack: Investigating Adversarial Attacks in Large Language Model Collaborations via Debate
- Title(参考訳): マルチエージェント・コラボレーション・アタック:ディベートによる大規模言語モデルコラボレーションにおける敵対的アタックの調査
- Authors: Alfonso Amayuelas, Xianjun Yang, Antonis Antoniades, Wenyue Hua, Liangming Pan, William Wang,
- Abstract要約: 大規模言語モデル(LLM)は、個別に作業する場合に、現在のベンチマークで例外的な結果を示す。
パラメータサイズと推論時間の短縮とともに、それらの能力の進歩は、これらのモデルをエージェントとしての使用を促進する。
敵の影響下での議論を通じて協調するモデルのネットワークの挙動を評価する。
- 参考スコア(独自算出の注目度): 24.92465108034783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown exceptional results on current benchmarks when working individually. The advancement in their capabilities, along with a reduction in parameter size and inference times, has facilitated the use of these models as agents, enabling interactions among multiple models to execute complex tasks. Such collaborations offer several advantages, including the use of specialized models (e.g. coding), improved confidence through multiple computations, and enhanced divergent thinking, leading to more diverse outputs. Thus, the collaborative use of language models is expected to grow significantly in the coming years. In this work, we evaluate the behavior of a network of models collaborating through debate under the influence of an adversary. We introduce pertinent metrics to assess the adversary's effectiveness, focusing on system accuracy and model agreement. Our findings highlight the importance of a model's persuasive ability in influencing others. Additionally, we explore inference-time methods to generate more compelling arguments and evaluate the potential of prompt-based mitigation as a defensive strategy.
- Abstract(参考訳): 大規模言語モデル(LLM)は、個別に作業する場合に、現在のベンチマークで例外的な結果を示す。
パラメータサイズと推論時間の短縮とともに、それらの能力の進歩により、これらのモデルをエージェントとしての使用が促進され、複数のモデル間の相互作用が複雑なタスクの実行を可能にした。
このようなコラボレーションには、特別なモデル(例えばコーディング)の使用、複数の計算による信頼性の向上、分散思考の強化など、いくつかの利点がある。
このように、言語モデルの協調的な利用は、今後数年で大幅に増加することが期待されている。
本研究では,敵対者の影響下での議論を通じて協調するモデルのネットワークの挙動を評価する。
我々は,システム精度とモデル合意に焦点をあてて,敵の有効性を評価するために,関連する指標を導入する。
本研究は,他者に影響を与えるモデルが持つ説得力の重要性を明らかにするものである。
さらに、より説得力のある議論を生成するための推論時手法を検討し、プロンプトベースの緩和の可能性を防衛戦略として評価する。
関連論文リスト
- Scaling Large-Language-Model-based Multi-Agent Collaboration [75.5241464256688]
大規模言語モデルによるエージェントのパイオニア化は、マルチエージェントコラボレーションの設計パターンを暗示している。
神経スケーリング法則に触発された本研究では,マルチエージェント協調におけるエージェントの増加に類似の原理が適用されるかを検討する。
論文 参考訳(メタデータ) (2024-06-11T11:02:04Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - JAB: Joint Adversarial Prompting and Belief Augmentation [81.39548637776365]
我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2023-11-16T00:35:54Z) - Towards Reasoning in Large Language Models via Multi-Agent Peer Review
Collaboration [28.299379264080603]
大規模言語モデル(LLM)は、一般的な自然言語処理タスクにおいて顕著な能力を示しているが、複雑な推論タスクでは不足することが多い。
近年の研究では、自己正当性のような人間的な問題解決戦略を探求し、単一モデル推論能力の境界を推し進めている。
学術的ピアレビュープロセスをエミュレートするマルチエージェントコラボレーション戦略を導入する。
論文 参考訳(メタデータ) (2023-11-14T13:27:07Z) - SAIE Framework: Support Alone Isn't Enough -- Advancing LLM Training
with Adversarial Remarks [47.609417223514605]
この研究は、学習者とパートナーモデルの間の支援的および敵対的な議論を促進するSAIEフレームワークを紹介している。
実験により,SAIEフレームワークで微調整したモデルでは,従来の微調整手法で訓練したモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-11-14T12:12:25Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Measuring the Contribution of Multiple Model Representations in
Detecting Adversarial Instances [0.0]
本稿では,複数のモデルから表現を取り入れた2つの手法について述べる。
多くのシナリオについて検討した結果,表現の抽出に使用する基礎モデルの数によって,性能が向上することが明らかとなった。
論文 参考訳(メタデータ) (2021-11-13T04:24:57Z) - Harnessing Perceptual Adversarial Patches for Crowd Counting [92.79051296850405]
群衆のカウントは、物理的な世界の敵の例に弱い。
本稿では,モデル間での知覚的特徴の共有を学習するためのPAP(Perceptual Adrial Patch)生成フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-16T13:51:39Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Evaluating Deception Detection Model Robustness To Linguistic Variation [10.131671217810581]
認知ニュース検出の設定における言語的変化に対するモデル堅牢性の解析を提案する。
2つの予測タスクを検討し,3つの最先端組込みを比較して,モデル性能の一貫した傾向を強調する。
キャラクタあるいは混合アンサンブルモデルが最も効果的な防御であり,キャラクタ摂動に基づく攻撃戦術がより成功していることがわかった。
論文 参考訳(メタデータ) (2021-04-23T17:25:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。