論文の概要: Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards
- arxiv url: http://arxiv.org/abs/2501.07493v1
- Date: Mon, 13 Jan 2025 17:12:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:25:52.167038
- Title: Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards
- Title(参考訳): 投票型リーダーボードの逆操作の探索と緩和
- Authors: Yangsibo Huang, Milad Nasr, Anastasios Angelopoulos, Nicholas Carlini, Wei-Lin Chiang, Christopher A. Choquette-Choo, Daphne Ippolito, Matthew Jagielski, Katherine Lee, Ken Ziyu Liu, Ion Stoica, Florian Tramer, Chiyuan Zhang,
- Abstract要約: このタイプの最も人気のあるベンチマークであるArenaは、ランダムに選択された2つのモデル間のより良いレスポンスを選択するようユーザに求めることで、モデルをランク付けする。
攻撃者は、約1000票の費用で、リーダーボードを変更できる(お気に入りのモデルを宣伝したり、ライバルを降格させる)。
私たちの攻撃は2つのステップで構成されている。まず、攻撃者が95%以上の精度で特定の応答を生成するためにどのモデルを使用したかを決定する方法を示し、次に、攻撃者はこの情報を使ってターゲットモデルに対して一貫して投票することができる。
- 参考スコア(独自算出の注目度): 93.16294577018482
- License:
- Abstract: It is now common to evaluate Large Language Models (LLMs) by having humans manually vote to evaluate model outputs, in contrast to typical benchmarks that evaluate knowledge or skill at some particular task. Chatbot Arena, the most popular benchmark of this type, ranks models by asking users to select the better response between two randomly selected models (without revealing which model was responsible for the generations). These platforms are widely trusted as a fair and accurate measure of LLM capabilities. In this paper, we show that if bot protection and other defenses are not implemented, these voting-based benchmarks are potentially vulnerable to adversarial manipulation. Specifically, we show that an attacker can alter the leaderboard (to promote their favorite model or demote competitors) at the cost of roughly a thousand votes (verified in a simulated, offline version of Chatbot Arena). Our attack consists of two steps: first, we show how an attacker can determine which model was used to generate a given reply with more than $95\%$ accuracy; and then, the attacker can use this information to consistently vote for (or against) a target model. Working with the Chatbot Arena developers, we identify, propose, and implement mitigations to improve the robustness of Chatbot Arena against adversarial manipulation, which, based on our analysis, substantially increases the cost of such attacks. Some of these defenses were present before our collaboration, such as bot protection with Cloudflare, malicious user detection, and rate limiting. Others, including reCAPTCHA and login are being integrated to strengthen the security in Chatbot Arena.
- Abstract(参考訳): 現在、ある特定のタスクにおける知識やスキルを評価する典型的なベンチマークとは対照的に、人間が手動でモデル出力を評価することで、LLM(Large Language Models)を評価することが一般的である。
このタイプの最も人気のあるベンチマークであるChatbot Arenaは、ランダムに選択された2つのモデル間のより良いレスポンスをユーザに選択させることで、モデルをランク付けする(どのモデルが世代に責任を持つかは明らかにしない)。
これらのプラットフォームは、LLM機能の公平かつ正確な尺度として広く信頼されている。
本稿では,ボット保護やその他の防御機能が実装されていない場合,これらの投票ベースのベンチマークは,敵の操作に対して潜在的に脆弱であることを示す。
具体的には、攻撃者が約1000票(シミュレーションされたオフライン版Chatbot Arenaで検証)でリーダーボードを変更できることを示します。
私たちの攻撃は2つのステップから構成される: まず、攻撃者が与えられた応答を生成するために9,5\%以上の精度でどのモデルを使用したかを決定する方法を示し、次に攻撃者は、この情報を使ってターゲットモデルに対して一貫して投票(または反対)を行うことができる。
Chatbot Arenaの開発者と協力して、Chatbot Arenaの敵操作に対する堅牢性を改善するための緩和策を特定し、提案し、実装する。
例えば、Cloudflareによるボット保護、悪意のあるユーザ検出、レート制限などです。
その他のreCAPTCHAやログインはChatbot Arenaのセキュリティを強化するために統合されている。
関連論文リスト
- Improving Your Model Ranking on Chatbot Arena by Vote Rigging [43.28854307528825]
クラウドソーシングされた投票は、ターゲットモデル $m_t$ のランキングを改善するために適用可能であることを示す。
私たちはElo Arenaプラットフォームから約170万票の投票で実験を行います。
本研究は,投票のリグを防ぐための継続的な努力の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-01-29T18:57:29Z) - Adversarial Botometer: Adversarial Analysis for Social Bot Detection [1.9280536006736573]
ソーシャルボットは人間の創造性を模倣するコンテンツを制作する。
悪意のあるソーシャルボットは、非現実的なコンテンツで人々を騙すようになる。
テキストベースのボット検出器の動作を競合環境下で評価する。
論文 参考訳(メタデータ) (2024-05-03T11:28:21Z) - Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [48.99117537559644]
人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。
本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。
本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
論文 参考訳(メタデータ) (2024-03-07T01:22:38Z) - My Brother Helps Me: Node Injection Based Adversarial Attack on Social Bot Detection [69.99192868521564]
Twitterのようなソーシャルプラットフォームは、数多くの不正なユーザーから包囲されている。
ソーシャルネットワークの構造のため、ほとんどの手法は攻撃を受けやすいグラフニューラルネットワーク(GNN)に基づいている。
本稿では,ボット検出モデルを欺いたノードインジェクションに基づく逆攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-10-11T03:09:48Z) - Backdoor Attacks on Crowd Counting [63.90533357815404]
クラウドカウント(Crowd counting)は、シーンイメージ内の人数を推定する回帰タスクである。
本稿では,深層学習に基づくクラウドカウントモデルのバックドア攻撃に対する脆弱性について検討する。
論文 参考訳(メタデータ) (2022-07-12T16:17:01Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - Adversarial Attacks on ML Defense Models Competition [82.37504118766452]
清華大学のTSAILグループとAlibaba Securityグループがこの競争を組織した。
この競争の目的は、敵の堅牢性を評価するために、新しい攻撃アルゴリズムを動機付けることである。
論文 参考訳(メタデータ) (2021-10-15T12:12:41Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。