論文の概要: PromptBench: A Unified Library for Evaluation of Large Language Models
- arxiv url: http://arxiv.org/abs/2312.07910v1
- Date: Wed, 13 Dec 2023 05:58:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-14 16:34:20.285175
- Title: PromptBench: A Unified Library for Evaluation of Large Language Models
- Title(参考訳): PromptBench: 大規模言語モデル評価のための統一ライブラリ
- Authors: Kaijie Zhu, Qinlin Zhao, Hao Chen, Jindong Wang, Xing Xie
- Abstract要約: 大規模言語モデル(LLM)を評価する統合ライブラリであるPromptBenchを紹介する。
プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプトアタック、動的評価プロトコル、分析ツールなど、研究者が使いやすく拡張した重要なコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 33.795013666838024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of large language models (LLMs) is crucial to assess their
performance and mitigate potential security risks. In this paper, we introduce
PromptBench, a unified library to evaluate LLMs. It consists of several key
components that are easily used and extended by researchers: prompt
construction, prompt engineering, dataset and model loading, adversarial prompt
attack, dynamic evaluation protocols, and analysis tools. PromptBench is
designed to be an open, general, and flexible codebase for research purposes
that can facilitate original study in creating new benchmarks, deploying
downstream applications, and designing new evaluation protocols. The code is
available at: https://github.com/microsoft/promptbench and will be continuously
supported.
- Abstract(参考訳): 大規模言語モデル(LLM)の評価は、その性能を評価し、潜在的なセキュリティリスクを軽減するために重要である。
本稿では,LLMを評価する統一ライブラリであるPromptBenchを紹介する。
プロンプト構築、プロンプトエンジニアリング、データセットとモデルのローディング、敵のプロンプト攻撃、動的評価プロトコル、分析ツールなど、研究者が容易に使用および拡張できるいくつかの重要なコンポーネントで構成されている。
PromptBenchは、研究目的のためのオープンで汎用的で柔軟なコードベースとして設計されており、新しいベンチマークの作成、下流アプリケーションのデプロイ、新しい評価プロトコルの設計において、オリジナルの研究を促進することができる。
コードはhttps://github.com/microsoft/promptbenchで入手できる。
関連論文リスト
- DevBench: A Comprehensive Benchmark for Software Development [73.62247555595042]
DevBenchは、ソフトウェア開発ライフサイクルのさまざまな段階にわたる大規模言語モデル(LLM)を評価するベンチマークである。
GPT-4-Turboを含む現在のLLMは、DevBench内での課題の解決に失敗している。
本研究は,LLMを現実のプログラミングアプリケーションに展開する上で,現実的な知見を提供するものである。
論文 参考訳(メタデータ) (2024-03-13T15:13:44Z) - BIRCO: A Benchmark of Information Retrieval Tasks with Complex
Objectives [2.4816250611120547]
複雑な目的を持つ情報検索タスクのベンチマーク(BIRCO)について述べる。
BIRCOは、多面的ユーザ目的のドキュメントを検索するIRシステムの能力を評価する。
論文 参考訳(メタデータ) (2024-02-21T22:22:30Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large
Language Models [112.46733790998024]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Evaluating In-Context Learning of Libraries for Code Generation [38.86753078870638]
大規模言語モデル(LLM)は高いレベルのコード生成と理解能力を示す。
近年の研究では、大規模プロプライエタリなLLMがデモから新しいライブラリの使用法を学習できることが示されている。
論文 参考訳(メタデータ) (2023-11-16T07:37:25Z) - CodeTF: One-stop Transformer Library for State-of-the-art Code LLM [72.1638273937025]
我々は、最先端のCode LLMとコードインテリジェンスのためのオープンソースのTransformerベースのライブラリであるCodeTFを紹介する。
我々のライブラリは、事前訓練されたコードLLMモデルと人気のあるコードベンチマークのコレクションをサポートします。
CodeTFが機械学習/生成AIとソフトウェア工学のギャップを埋められることを願っている。
論文 参考訳(メタデータ) (2023-05-31T05:24:48Z) - OpenPrompt: An Open-source Framework for Prompt-learning [59.17869696803559]
PLM上でのプロンプト学習を行うための統一的な使いやすさツールキットであるOpenPromptを提案する。
OpenPromptは、効率性、モジュール性、拡張性を備えた、リサーチフレンドリーなフレームワークである。
論文 参考訳(メタデータ) (2021-11-03T03:31:14Z) - MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale [32.62513495487506]
機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。
本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
論文 参考訳(メタデータ) (2020-02-19T17:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。