論文の概要: Improving Your Model Ranking on Chatbot Arena by Vote Rigging
- arxiv url: http://arxiv.org/abs/2501.17858v1
- Date: Wed, 29 Jan 2025 18:57:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:55:13.288199
- Title: Improving Your Model Ranking on Chatbot Arena by Vote Rigging
- Title(参考訳): 投票によるチャットボットアリーナにおけるモデルランキングの改善
- Authors: Rui Min, Tianyu Pang, Chao Du, Qian Liu, Minhao Cheng, Min Lin,
- Abstract要約: クラウドソーシングされた投票は、ターゲットモデル $m_t$ のランキングを改善するために適用可能であることを示す。
私たちはElo Arenaプラットフォームから約170万票の投票で実験を行います。
本研究は,投票のリグを防ぐための継続的な努力の重要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 43.28854307528825
- License:
- Abstract: Chatbot Arena is a popular platform for evaluating LLMs by pairwise battles, where users vote for their preferred response from two randomly sampled anonymous models. While Chatbot Arena is widely regarded as a reliable LLM ranking leaderboard, we show that crowdsourced voting can be rigged to improve (or decrease) the ranking of a target model $m_{t}$. We first introduce a straightforward target-only rigging strategy that focuses on new battles involving $m_{t}$, identifying it via watermarking or a binary classifier, and exclusively voting for $m_{t}$ wins. However, this strategy is practically inefficient because there are over $190$ models on Chatbot Arena and on average only about $1\%$ of new battles will involve $m_{t}$. To overcome this, we propose omnipresent rigging strategies, exploiting the Elo rating mechanism of Chatbot Arena that any new vote on a battle can influence the ranking of the target model $m_{t}$, even if $m_{t}$ is not directly involved in the battle. We conduct experiments on around $1.7$ million historical votes from the Chatbot Arena Notebook, showing that omnipresent rigging strategies can improve model rankings by rigging only hundreds of new votes. While we have evaluated several defense mechanisms, our findings highlight the importance of continued efforts to prevent vote rigging. Our code is available at https://github.com/sail-sg/Rigging-ChatbotArena.
- Abstract(参考訳): Chatbot Arena(チャットボット・アリーナ)は、ランダムにサンプリングされた2つの匿名モデルから好まれる反応をユーザが投票する、ペアワイズバトルによるLSMを評価する一般的なプラットフォームである。
Chatbot Arena は信頼性の高い LLM ランキングのリーダーボードとして広く見なされているが、クラウドソーシングされた投票はターゲットモデル $m_{t}$ のランキングを改善する(または減少させる)ために引きこもることができる。
まず、まず、$m_{t}$を含む新しい戦いに焦点を当て、ウォーターマーキングまたはバイナリ分類器を介してそれを識別し、$m_{t}$ winsにのみ投票する、単純なターゲットのみのリギング戦略を紹介します。
しかし、Chatbot Arenaには190ドル以上のモデルがあるため、この戦略は事実上非効率である。
これを解決するために、Chatbot ArenaのElo評価機構を利用して、もし$m_{t}$が直接戦闘に関与していなくても、戦闘における新たな投票が目標モデル$m_{t}$のランキングに影響を及ぼす可能性がある、という一意のリギング戦略を提案する。
われわれはChatbot Arena Notebookから約170万ドルの歴史的投票を行った。
我々はいくつかの防衛メカニズムを評価してきたが、この発見は投票のリグを防ぐための継続的な努力の重要性を強調した。
私たちのコードはhttps://github.com/sail-sg/Rigging-ChatbotArenaで利用可能です。
関連論文リスト
- Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards [93.16294577018482]
このタイプの最も人気のあるベンチマークであるArenaは、ランダムに選択された2つのモデル間のより良いレスポンスを選択するようユーザに求めることで、モデルをランク付けする。
攻撃者は、約1000票の費用で、リーダーボードを変更できる(お気に入りのモデルを宣伝したり、ライバルを降格させる)。
私たちの攻撃は2つのステップで構成されている。まず、攻撃者が95%以上の精度で特定の応答を生成するためにどのモデルを使用したかを決定する方法を示し、次に、攻撃者はこの情報を使ってターゲットモデルに対して一貫して投票することができる。
論文 参考訳(メタデータ) (2025-01-13T17:12:38Z) - Evaluating the Robustness of the "Ensemble Everything Everywhere" Defense [90.7494670101357]
あらゆるものをアンサンブルすることは、敵の例に対する防御である。
この防御は敵の攻撃に対して堅牢ではないことを示す。
次に、標準的なアダプティブアタック技術を用いて、防御の堅牢な精度を低下させる。
論文 参考訳(メタデータ) (2024-11-22T10:17:32Z) - Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference [48.99117537559644]
人間の好みに基づいた大規模言語モデル(LLM)を評価するオープンプラットフォームであるArenaを紹介する。
本手法は,クラウドソーシングを通じて,多種多様なユーザベースからのインプットを活用する。
本稿では,このプラットフォームについて述べるとともに,これまでに収集したデータを分析し,実際に使用している統計的手法について説明する。
論文 参考訳(メタデータ) (2024-03-07T01:22:38Z) - Adding guardrails to advanced chatbots [5.203329540700177]
2022年11月にChatGPTがローンチされ、AIの新しい時代が到来した。
さまざまな仕事のために、人間がチャットボットに取って代わられるのではないか、という懸念はすでにある。
これらのバイアスは、異なるサブポピュレーションに対して重大な害および/または不平等を引き起こす可能性がある。
論文 参考訳(メタデータ) (2023-06-13T02:23:04Z) - On Safe and Usable Chatbots for Promoting Voter Participation [8.442334707366173]
ユーザ固有のニーズに対してパーソナライズしながら,公式情報を増幅するシステムを構築する。
我々のアプローチは、有権者、選挙機関が彼らの委任統治と民主主義を全面的に満たそうとする上で、勝利となる可能性がある。
論文 参考訳(メタデータ) (2022-12-16T08:07:51Z) - MulBot: Unsupervised Bot Detection Based on Multivariate Time Series [2.525739800601558]
MulBotは、ユーザタイムラインから抽出された多次元の時間的特徴に基づく教師なしボット検出器である。
我々はf1-score $= 0.99$を達成するバイナリ分類タスクを実行し、最先端の手法より優れています。
また、MulBotの強みを、異なるボットネットの検出と分離という、新しく実用的なタスクで実証する。
論文 参考訳(メタデータ) (2022-09-21T13:56:12Z) - Practical Evaluation of Adversarial Robustness via Adaptive Auto Attack [96.50202709922698]
実用的な評価手法は、便利な(パラメータフリー)、効率的な(イテレーションの少ない)、信頼性を持つべきである。
本稿では,パラメータフリーな適応オートアタック (A$3$) 評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-10T04:53:54Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。