論文の概要: Evaluating Large Language Models with fmeval
- arxiv url: http://arxiv.org/abs/2407.12872v1
- Date: Mon, 15 Jul 2024 12:15:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 20:02:37.895627
- Title: Evaluating Large Language Models with fmeval
- Title(参考訳): fmevalによる大規模言語モデルの評価
- Authors: Pola Schwöbel, Luca Franceschi, Muhammad Bilal Zafar, Keerthan Vasist, Aman Malhotra, Tomer Shenhar, Pinal Tailor, Pinar Yilmaz, Michael Diamond, Michele Donini,
- Abstract要約: fmevalは大規模な言語モデル(LLM)をさまざまなタスクで評価するオープンソースライブラリである。
実践者は、タスクパフォーマンスのモデルと、複数の責任あるAI次元を評価するのに役立ちます。
- 参考スコア(独自算出の注目度): 9.019854536693623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: fmeval is an open source library to evaluate large language models (LLMs) in a range of tasks. It helps practitioners evaluate their model for task performance and along multiple responsible AI dimensions. This paper presents the library and exposes its underlying design principles: simplicity, coverage, extensibility and performance. We then present how these were implemented in the scientific and engineering choices taken when developing fmeval. A case study demonstrates a typical use case for the library: picking a suitable model for a question answering task. We close by discussing limitations and further work in the development of the library. fmeval can be found at https://github.com/aws/fmeval.
- Abstract(参考訳): fmevalは大規模な言語モデル(LLM)をさまざまなタスクで評価するオープンソースライブラリである。
実践者は、タスクパフォーマンスのモデルと、複数の責任あるAI次元を評価するのに役立ちます。
本稿では,ライブラリを提示し,その基本となる設計原則である単純さ,包括性,拡張性,性能を明らかにする。
次に、これらがFmevalを開発する際の科学的および工学的な選択にどのように実装されたかを示す。
ケーススタディでは、質問応答タスクに適したモデルを選択するという、ライブラリの典型的なユースケースを示している。
制限について議論し、ライブラリの開発にさらに取り組みます。
fmevalはhttps://github.com/aws/fmevalで見ることができる。
関連論文リスト
- Renaissance: Investigating the Pretraining of Vision-Language Encoders [0.6445605125467574]
メタ分析により,視覚言語エンコーダの事前学習に関するいくつかの疑問に答えようとしている。
最初の実験では、事前学習中に視覚言語モデルの大部分を凍結することにより、ダウンストリームのパフォーマンスを低下させることなく、大幅な計算を省くことができることを示した。
第2の実験では,VL変換器が視覚モデルとテキストモデルにどのような効果をもたらすかを検討した。
論文 参考訳(メタデータ) (2024-11-11T01:44:54Z) - Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - Apple Intelligence Foundation Language Models [109.60033785567484]
本報告では、モデルアーキテクチャ、モデルトレーニングに使用されるデータ、トレーニングプロセス、評価結果について述べる。
私たちは、Responsible AIと、モデル開発全体を通して原則がどのように適用されているかに重点を置いています。
論文 参考訳(メタデータ) (2024-07-29T18:38:49Z) - Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction [10.428174043080622]
大規模言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。
本稿では,標準テストの限界に対処する評価フレームワークであるSWiMを提案する。
また,この効果を緩和する,単純かつ効果的なトレーニングフリーアプローチであるメドイド投票を提案する。
論文 参考訳(メタデータ) (2024-07-04T05:46:20Z) - LLM Interactive Optimization of Open Source Python Libraries -- Case
Studies and Generalization [0.0]
本稿では,有名なオープンソースピトンライブラリーの枕とマンピーに適用した方法論的に厳密なケーススタディについて述べる。
現代のLLM ChatGPT-4は、エネルギーと計算効率の最適化に驚くほど適している。
LLMはオープンソースライブラリにおけるコード最適化のための有望なツールであるが、そのループの人間専門家は成功に不可欠である、と結論付けている。
論文 参考訳(メタデータ) (2023-12-08T13:52:57Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - A Static Evaluation of Code Completion by Large Language Models [65.18008807383816]
単純なプログラミング問題に対するモデル生成コードの機能的正当性を評価するために,実行ベースベンチマークが提案されている。
プログラムを実行せずにエラーを検出するlinterのような静的解析ツールは、コード生成モデルを評価するために十分に研究されていない。
抽象構文木を利用して,Pythonのコード補完における静的エラーを定量化する静的評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-05T19:23:34Z) - Efficient Large Scale Language Modeling with Mixtures of Experts [61.45159383372181]
エキスパート層(MoE)の混合により、条件付き計算による言語モデルの効率的なスケーリングが可能になる。
本稿では, 自己回帰型 MoE 言語モデルが, 広範囲な環境下での高密度モデルと比較して, どのようにスケールするかを示す実験的検討を行った。
論文 参考訳(メタデータ) (2021-12-20T17:05:11Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Req2Lib: A Semantic Neural Model for Software Library Recommendation [8.713783358744166]
我々はReq2Libと呼ばれる新しいニューラルアプローチを提案し、プロジェクトの要件を記述したライブラリを推奨する。
本研究では,自然言語における要求記述の関連情報と意味情報の学習にシーケンス・ツー・シーケンスモデルを用いる。
我々の予備評価は、Req2Libがライブラリを正確に推奨できることを示しています。
論文 参考訳(メタデータ) (2020-05-24T14:37:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。