論文の概要: Zero-shot Benchmarking: A Framework for Flexible and Scalable Automatic Evaluation of Language Models
- arxiv url: http://arxiv.org/abs/2504.01001v1
- Date: Tue, 01 Apr 2025 17:40:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:25:05.814324
- Title: Zero-shot Benchmarking: A Framework for Flexible and Scalable Automatic Evaluation of Language Models
- Title(参考訳): Zero-shot Benchmarking: 柔軟でスケーラブルな言語モデルの自動評価のためのフレームワーク
- Authors: José Pombal, Nuno M. Guerreiro, Ricardo Rei, André F. T. Martins,
- Abstract要約: タスクごとに高品質なベンチマークを作成するためのフレームワークであるZero-shot Benchmarking (ZSB)を提案する。
ZSBはシンプルで柔軟性があり、データ生成のためのプロンプトの作成と評価のためのプロンプトのみを必要とする。
実際のデータを収集する作業や言語には、費用がかかるか実用的でない。
- 参考スコア(独自算出の注目度): 24.481028155002523
- License:
- Abstract: As language models improve and become capable of performing more complex tasks across modalities, evaluating them automatically becomes increasingly challenging. Developing strong and robust task-specific automatic metrics gets harder, and human-annotated test sets -- which are expensive to create -- saturate more quickly. A compelling alternative is to design reliable strategies to automate the creation of test data and evaluation, but previous attempts either rely on pre-existing data, or focus solely on individual tasks. We present Zero-shot Benchmarking (ZSB), a framework for creating high-quality benchmarks for any task by leveraging language models for both synthetic test data creation and evaluation. ZSB is simple and flexible: it requires only the creation of a prompt for data generation and one for evaluation; it is scalable to tasks and languages where collecting real-world data is costly or impractical; it is model-agnostic, allowing the creation of increasingly challenging benchmarks as models improve. To assess the effectiveness of our framework, we create benchmarks for five text-only tasks and a multi-modal one: general capabilities in four languages (English, Chinese, French, and Korean), translation, and general vision-language capabilities in English. We then rank a broad range of open and closed systems on our benchmarks. ZSB rankings consistently correlate strongly with human rankings, outperforming widely-adopted standard benchmarks. Through ablations, we find that strong benchmarks can be created with open models, and that judge model size and dataset variety are crucial drivers of performance. We release all our benchmarks, and code to reproduce our experiments and to produce new benchmarks.
- Abstract(参考訳): 言語モデルが改良され、モダリティを越えてより複雑なタスクを実行できるようになると、それらを自動的に評価することがますます困難になる。
強力で堅牢なタスク固有の自動メトリクスの開発は難しくなり、人手による注釈付きテストセット -- 作成にコストがかかる -- は、より早く飽和する。
魅力的な代替手段は、テストデータの作成と評価を自動化するための信頼性の高い戦略を設計することだが、以前の試みは既存のデータに依存するか、個々のタスクにのみフォーカスするかのいずれかだった。
ゼロショットベンチマーク(Zero-shot Benchmarking, ZSB)は, 言語モデルを利用して, 任意のタスクに対して高品質なベンチマークを作成するためのフレームワークである。
ZSBはシンプルで柔軟なもので、データ生成のプロンプトと評価のためのプロンプトの作成のみを必要とし、現実世界のデータ収集がコストがかかるか実用的でないタスクや言語にスケーラブルである。
本フレームワークの有効性を評価するため,5つのテキストのみのタスクと,4言語(英語,中国語,フランス語,韓国語)の一般機能,翻訳機能,英語の一般ビジョン言語機能といったマルチモーダルタスクのベンチマークを作成する。
次に、ベンチマークで幅広いオープンおよびクローズドなシステムをランク付けします。
ZSBランキングは人間ランキングと強く相関し、広く採用されている標準ベンチマークを上回っている。
アブレーションによって、強力なベンチマークをオープンモデルで作成することができ、モデルのサイズとデータセットの多様性を判断することが、パフォーマンスの重要な要因であることが分かりました。
すべてのベンチマークとコードをリリースして、実験を再現し、新しいベンチマークを作成します。
関連論文リスト
- MMTEB: Massive Multilingual Text Embedding Benchmark [85.18187649328792]
我々はMMTEBベンチマーク(Massive Multilingual Text Embedding Benchmark)を紹介する。
MMTEBは250以上の言語で500以上の品質管理された評価タスクをカバーしている。
我々は複数の多言語ベンチマークを開発し、モデルを代表的に評価する。
論文 参考訳(メタデータ) (2025-02-19T10:13:43Z) - BENCHAGENTS: Automated Benchmark Creation with Agent Interaction [16.4783894348333]
BENCHAGENTSは,大規模言語モデル(LLM)を体系的に活用し,複雑な機能のためのベンチマーク作成を自動化するフレームワークである。
我々は、BENCHAGENTSを用いて、テキスト生成時の計画と制約満足度に関連する機能を評価するベンチマークを作成する。
次に、これらのベンチマークを使用して、7つの最先端モデルを調査し、共通の障害モードとモデルの違いに関する新たな洞察を抽出する。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - XTREME-UP: A User-Centric Scarce-Data Benchmark for Under-Represented
Languages [105.54207724678767]
データ不足は、多言語NLPシステムの開発において重要な問題である。
我々はXTREME-UPを提案する。XTREME-UPはゼロショットではなく、希少なデータシナリオに焦点を当てたベンチマークである。
XTREME-UPは、88言語にまたがる言語モデルが、9つのキーとなるユーザー中心技術上で機能する能力を評価する。
論文 参考訳(メタデータ) (2023-05-19T18:00:03Z) - This is the way: designing and compiling LEPISZCZE, a comprehensive NLP
benchmark for Polish [5.8090623549313944]
ポーランドNLPの新しい総合ベンチマークであるLEPISZCZEを紹介する。
ポーランドのベンチマークから5つのデータセットを使用し、8つの新しいデータセットを追加しています。
我々はポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語のための同様のベンチマークを設計する青写真を提供する。
論文 参考訳(メタデータ) (2022-11-23T16:51:09Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - KOBEST: Korean Balanced Evaluation of Significant Tasks [3.664687661363732]
自然言語処理(NLP)分野の進歩を加速させる上で,十分に構成されたベンチマークが重要な役割を担っている。
我々は,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2022-04-09T20:13:51Z) - CUGE: A Chinese Language Understanding and Generation Evaluation
Benchmark [144.05723617401674]
汎用言語インテリジェンス評価は、自然言語処理の長年の目標である。
汎用言語インテリジェンス評価には,ベンチマーク自体が包括的で体系的なものである必要がある,と我々は主張する。
以下に示す機能を備えた中国語理解・生成評価ベンチマークであるCUGEを提案する。
論文 参考訳(メタデータ) (2021-12-27T11:08:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。