論文の概要: This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs
- arxiv url: http://arxiv.org/abs/2503.05856v1
- Date: Fri, 07 Mar 2025 14:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:36.752629
- Title: This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs
- Title(参考訳): LLMの謎とロバスト性を探る(動画あり)
- Authors: Lorenz Wolf, Sangwoong Yoon, Ilija Bogunovic,
- Abstract要約: 大規模言語モデル(LLM)エージェント(MoA)はAlpacaEval 2.0のような著名なベンチマークで最先端のパフォーマンスを達成する。
本研究は,LLM剤に対するMoAの堅牢性に関する初の包括的研究である。
- 参考スコア(独自算出の注目度): 14.753476265224245
- License:
- Abstract: Mixture of large language model (LLMs) Agents (MoA) architectures achieve state-of-the-art performance on prominent benchmarks like AlpacaEval 2.0 by leveraging the collaboration of multiple LLMs at inference time. Despite these successes, an evaluation of the safety and reliability of MoA is missing. We present the first comprehensive study of MoA's robustness against deceptive LLM agents that deliberately provide misleading responses. We examine factors like the propagation of deceptive information, model size, and information availability, and uncover critical vulnerabilities. On AlpacaEval 2.0, the popular LLaMA 3.1-70B model achieves a length-controlled Win Rate (LC WR) of 49.2% when coupled with 3-layer MoA (6 LLM agents). However, we demonstrate that introducing only a $\textit{single}$ carefully-instructed deceptive agent into the MoA can reduce performance to 37.9%, effectively nullifying all MoA gains. On QuALITY, a multiple-choice comprehension task, the impact is also severe, with accuracy plummeting by a staggering 48.5%. Inspired in part by the historical Doge of Venice voting process, designed to minimize influence and deception, we propose a range of unsupervised defense mechanisms that recover most of the lost performance.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェント(MoA)アーキテクチャの混合は、推論時に複数のLLMの協調を活用することで、AlpacaEval 2.0のような著名なベンチマーク上で最先端のパフォーマンスを達成する。
これらの成功にもかかわらず、MoAの安全性と信頼性の評価は欠落している。
本研究は,誤伝反応を意図的に提示する誤認性LLM剤に対するMoAの堅牢性に関する最初の包括的研究である。
誤認情報の伝播、モデルサイズ、情報可用性などの要因を調べ、重大な脆弱性を明らかにする。
AlpacaEval 2.0では、一般的なLLaMA 3.1-70Bモデルは、3層MoA(6 LLMエージェント)と組み合わせると長さ制御のウィンレート(LC WR)が49.2%に達する。
しかし、MoAに$\textit{single}$ 慎重に指示された偽装エージェントを導入するだけで、パフォーマンスが37.9%に低下し、事実上すべてのMoAゲインが無効になることを示した。
多重選択理解タスクであるQuALITYでは、その影響も深刻であり、48.5%の精度で低下している。
ヴェネツィアの歴史的投票プロセスの一部に触発され、影響を最小限に抑え、騙しを抑えるために、失ったパフォーマンスのほとんどを回復する、教師なしの防衛機構が提案されている。
関連論文リスト
- LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Enhancing Financial Question Answering with a Multi-Agent Reflection Framework [0.0]
本稿では,各質問に対する推論ステップと最終回答を反映した批判エージェントを組み込んだマルチエージェントフレームワークを提案する。
以上の結果から,このフレームワークはシングルエージェント推論に比べて性能が著しく向上することが示された。
我々のフレームワークはLLaMA3.1-405B や GPT-4o-mini のようなより大きな単一エージェント LLM に匹敵する性能を持つ。
論文 参考訳(メタデータ) (2024-10-29T04:58:07Z) - LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。
$gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。
MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:59:53Z) - LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。
オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。
この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文 参考訳(メタデータ) (2024-10-09T01:25:10Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Mixture-of-Agents Enhances Large Language Model Capabilities [34.68610100315386]
我々は,Mixture-of-Agents(MoA)手法を用いて,多言語モデル(LLM)の総合的知識を活用する新しい手法を提案する。
提案手法では, 各層が複数のLLMエージェントから構成される層状MoAアーキテクチャを構築する。
MoAモデルは、AlpacaEval 2.0、MT-Bench、FLASKで、GPT-4 Omniを上回っている。
論文 参考訳(メタデータ) (2024-06-07T07:04:10Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Embedding Attack Project (Work Report) [1.1406834504148182]
本報告では,埋め込み攻撃プロジェクトのMIA実験(Membership Inference Attacks)について概説する。
現在の結果は、コンピュータビジョンから言語モデリングまでの6つのAIモデルにおける2つの主要なMIA戦略の評価をカバーしている。
MIA防衛と近辺比較攻撃の2つの実験が進行中である。
論文 参考訳(メタデータ) (2024-01-24T23:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。