論文の概要: Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates
- arxiv url: http://arxiv.org/abs/2410.07137v1
- Date: Wed, 9 Oct 2024 17:53:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 22:06:43.485170
- Title: Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates
- Title(参考訳): 自動LLMベンチマークの更新:Nullモデルが高い利得を達成
- Authors: Xiaosen Zheng, Tianyu Pang, Chao Du, Qian Liu, Jing Jiang, Min Lin,
- Abstract要約: 常に一定応答を出力する"nullモデル"でさえ、自動ベンチマークを騙し、トップランクの勝利率を達成することができることを示す。
以上の結果から,信頼性の高い自動ベンチマークのための加熱防止機構の開発が望まれる。
- 参考スコア(独自算出の注目度): 37.56003689042975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic LLM benchmarks, such as AlpacaEval 2.0, Arena-Hard-Auto, and MT-Bench, have become popular for evaluating language models due to their cost-effectiveness and scalability compared to human evaluation. Achieving high win rates on these benchmarks can significantly boost the promotional impact of newly released language models. This promotional benefit may motivate tricks, such as manipulating model output length or style to game win rates, even though several mechanisms have been developed to control length and disentangle style to reduce gameability. Nonetheless, we show that even a "null model" that always outputs a constant response (irrelevant to input instructions) can cheat automatic benchmarks and achieve top-ranked win rates: an 86.5% LC win rate on AlpacaEval 2.0; an 83.0 score on Arena-Hard-Auto; and a 9.55 score on MT-Bench. Moreover, the crafted cheating outputs are transferable because we assume that the instructions of these benchmarks (e.g., 805 samples of AlpacaEval 2.0) are private and cannot be accessed. While our experiments are primarily proof-of-concept, an adversary could use LLMs to generate more imperceptible cheating responses, unethically benefiting from high win rates and promotional impact. Our findings call for the development of anti-cheating mechanisms for reliable automatic benchmarks. The code is available at https://github.com/sail-sg/Cheating-LLM-Benchmarks.
- Abstract(参考訳): AlpacaEval 2.0、Arena-Hard-Auto、MT-Benchといった自動LLMベンチマークは、人間の評価に比べてコスト効率とスケーラビリティのため、言語モデルの評価に人気がある。
これらのベンチマークで高い勝利率を達成することは、新しくリリースされた言語モデルのプロモーション効果を著しく向上させる可能性がある。
このプロモーションの利点は、ゲーム性を減らすために長さとアンタングルスタイルを制御するためにいくつかのメカニズムが開発されているにもかかわらず、モデル出力長やスタイルをゲーム勝利率に操作するといったトリックを動機づける可能性がある。
それにもかかわらず、常に一定の応答(入力命令に関連しない)を出力する"nullモデル"でさえ、AlpacaEval 2.0の86.5%のLC勝利率、Arena-Hard-Autoの83.0のスコア、MT-Benchの9.55のスコアなど、自動ベンチマークを騙してトップランクの勝利率を達成することができることを示す。
さらに、これらのベンチマーク(例えば、AlpacaEval 2.0の805サンプル)の命令はプライベートであり、アクセスできないと仮定して、不正な出力が転送可能である。
我々の実験は主に概念実証だが、敵はLSMを使ってより受け入れ難い不正反応を発生させ、非倫理的に高い勝利率とプロモーション効果の恩恵を受けることができる。
以上の結果から,信頼性の高い自動ベンチマークのための加熱防止機構の開発が望まれる。
コードはhttps://github.com/sail-sg/Cheating-LLM-Benchmarksで公開されている。
関連論文リスト
- Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation [61.350306618479365]
ベンチマークの漏洩は、大規模言語モデルの真のパフォーマンスの正確な評価を防ぐことができる。
この問題に対処するため,ITD(Inference-Time Decontamination)を提案する。
ITDは、GSM8Kで22.9%、MMLUで19.0%の膨張精度を低下させる。
論文 参考訳(メタデータ) (2024-06-20T04:35:59Z) - From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline [47.19203597218352]
BenchBuilderは、大規模なクラウドソースデータセットから高品質でオープンなプロンプトをキュレートする自動パイプラインである。
BenchBuilderがキュレートした500の挑戦的なプロンプトからなるベンチマークであるArena-Hard-Autoをリリースしました。
我々の研究は、広範囲なデータから自動ベンチマークをスケーラブルにキュレーションするための新しいフレームワークを定めています。
論文 参考訳(メタデータ) (2024-06-17T17:26:10Z) - WildBench: Benchmarking LLMs with Challenging Tasks from Real Users in the Wild [57.272096543738336]
WildBenchは、大規模言語モデル(LLM)のベンチマーク用に設計された自動評価フレームワークである。
WildBenchは、100万以上の人間チャットボットの会話ログから慎重に選択された1,024のタスクで構成されている。
We have developed two metrics, WB-Reward and WB-Score which are computeable using Advanced LLMs。
論文 参考訳(メタデータ) (2024-06-07T09:15:44Z) - Auto-Arena: Automating LLM Evaluations with Agent Peer Battles and Committee Discussions [77.66677127535222]
Auto-ArenaはLLMエージェントを使用した評価プロセス全体を自動化した革新的なフレームワークである。
我々の実験では、Auto-Arenaは92.14%の相関関係を示し、以前の専門家が注釈付けしたベンチマークをすべて上回っている。
論文 参考訳(メタデータ) (2024-05-30T17:19:19Z) - The False Promise of Imitating Proprietary LLMs [158.65692029352584]
より弱い言語モデルを安価に改善するための新しい方法は、より強力なモデルからの出力に対してそれを微調整することである。
このアプローチは、より弱いオープンソースモデルを使用して、プロプライエタリなモデルの機能を安価に模倣することを目指している。
まず、様々なベースモデルサイズを用いてChatGPTを模倣する一連のLMを微調整する。
次に、群衆レーダと標準NLPベンチマークを用いてモデルを評価する。
論文 参考訳(メタデータ) (2023-05-25T05:00:12Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。