論文の概要: Evaluating Large Language Models with fmeval
- arxiv url: http://arxiv.org/abs/2407.12872v1
- Date: Mon, 15 Jul 2024 12:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 20:02:37.895627
- Title: Evaluating Large Language Models with fmeval
- Title(参考訳): fmevalによる大規模言語モデルの評価
- Authors: Pola Schwöbel, Luca Franceschi, Muhammad Bilal Zafar, Keerthan Vasist, Aman Malhotra, Tomer Shenhar, Pinal Tailor, Pinar Yilmaz, Michael Diamond, Michele Donini,
- Abstract要約: fmevalは大規模な言語モデル(LLM)をさまざまなタスクで評価するオープンソースライブラリである。
実践者は、タスクパフォーマンスのモデルと、複数の責任あるAI次元を評価するのに役立ちます。
- 参考スコア(独自算出の注目度): 9.019854536693623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: fmeval is an open source library to evaluate large language models (LLMs) in a range of tasks. It helps practitioners evaluate their model for task performance and along multiple responsible AI dimensions. This paper presents the library and exposes its underlying design principles: simplicity, coverage, extensibility and performance. We then present how these were implemented in the scientific and engineering choices taken when developing fmeval. A case study demonstrates a typical use case for the library: picking a suitable model for a question answering task. We close by discussing limitations and further work in the development of the library. fmeval can be found at https://github.com/aws/fmeval.
- Abstract(参考訳): fmevalは大規模な言語モデル(LLM)をさまざまなタスクで評価するオープンソースライブラリである。
実践者は、タスクパフォーマンスのモデルと、複数の責任あるAI次元を評価するのに役立ちます。
本稿では,ライブラリを提示し,その基本となる設計原則である単純さ,包括性,拡張性,性能を明らかにする。
次に、これらがFmevalを開発する際の科学的および工学的な選択にどのように実装されたかを示す。
ケーススタディでは、質問応答タスクに適したモデルを選択するという、ライブラリの典型的なユースケースを示している。
制限について議論し、ライブラリの開発にさらに取り組みます。
fmevalはhttps://github.com/aws/fmevalで見ることができる。
関連論文リスト
- Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction [10.428174043080622]
大規模言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。
本稿では,標準テストの限界に対処する評価フレームワークであるSWiMを提案する。
また,この効果を緩和する,単純かつ効果的なトレーニングフリーアプローチであるメドイド投票を提案する。
論文 参考訳(メタデータ) (2024-07-04T05:46:20Z) - LLM Interactive Optimization of Open Source Python Libraries -- Case
Studies and Generalization [0.0]
本稿では,有名なオープンソースピトンライブラリーの枕とマンピーに適用した方法論的に厳密なケーススタディについて述べる。
現代のLLM ChatGPT-4は、エネルギーと計算効率の最適化に驚くほど適している。
LLMはオープンソースライブラリにおけるコード最適化のための有望なツールであるが、そのループの人間専門家は成功に不可欠である、と結論付けている。
論文 参考訳(メタデータ) (2023-12-08T13:52:57Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - TensorFlow ManOpt: a library for optimization on Riemannian manifolds [0.3655021726150367]
ニューラルネットワークの採用と非ユークリッドドメインでのディープラーニングは、スケーラブルで効率的な学習フレームワークの欠如によって、最近まで妨げられていた。
我々は、機械学習モデルの観点からRiemannianを最適化するPythonライブラリであるManOptを提案し、このギャップを埋めようとしている。
このライブラリはエコシステムとのシームレスな統合を目的として設計されており、研究だけでなく、プロダクション機械学習パイプラインの合理化も目標としている。
論文 参考訳(メタデータ) (2021-05-27T10:42:09Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Captum: A unified and generic model interpretability library for PyTorch [49.72749684393332]
我々は,PyTorch用の新しい,統一されたオープンソースモデル解釈可能性ライブラリを紹介する。
このライブラリには、多くの勾配と摂動に基づく属性アルゴリズムの汎用的な実装が含まれている。
分類モデルと非分類モデルの両方に使用できる。
論文 参考訳(メタデータ) (2020-09-16T18:57:57Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z) - Req2Lib: A Semantic Neural Model for Software Library Recommendation [8.713783358744166]
我々はReq2Libと呼ばれる新しいニューラルアプローチを提案し、プロジェクトの要件を記述したライブラリを推奨する。
本研究では,自然言語における要求記述の関連情報と意味情報の学習にシーケンス・ツー・シーケンスモデルを用いる。
我々の予備評価は、Req2Libがライブラリを正確に推奨できることを示しています。
論文 参考訳(メタデータ) (2020-05-24T14:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。