論文の概要: Lessons from the Trenches on Reproducible Evaluation of Language Models
- arxiv url: http://arxiv.org/abs/2405.14782v1
- Date: Thu, 23 May 2024 16:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:46:53.699906
- Title: Lessons from the Trenches on Reproducible Evaluation of Language Models
- Title(参考訳): 言語モデルの再現性評価に関するトレンチからの教訓
- Authors: Stella Biderman, Hailey Schoelkopf, Lintang Sutawika, Leo Gao, Jonathan Tow, Baber Abbasi, Alham Fikri Aji, Pawan Sasanka Ammanamanchi, Sidney Black, Jordan Clive, Anthony DiPofi, Julen Etxaniz, Benjamin Fattori, Jessica Zosa Forde, Charles Foster, Mimansa Jaiswal, Wilson Y. Lee, Haonan Li, Charles Lovering, Niklas Muennighoff, Ellie Pavlick, Jason Phang, Aviya Skowron, Samson Tan, Xiangru Tang, Kevin A. Wang, Genta Indra Winata, François Yvon, Andy Zou,
- Abstract要約: 我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。
本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
- 参考スコア(独自算出の注目度): 61.06620697822843
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Effective evaluation of language models remains an open challenge in NLP. Researchers and engineers face methodological issues such as the sensitivity of models to evaluation setup, difficulty of proper comparisons across methods, and the lack of reproducibility and transparency. In this paper we draw on three years of experience in evaluating large language models to provide guidance and lessons for researchers. First, we provide an overview of common challenges faced in language model evaluation. Second, we delineate best practices for addressing or lessening the impact of these challenges on research. Third, we present the Language Model Evaluation Harness (lm-eval): an open source library for independent, reproducible, and extensible evaluation of language models that seeks to address these issues. We describe the features of the library as well as case studies in which the library has been used to alleviate these methodological concerns.
- Abstract(参考訳): 言語モデルの効果的な評価は、NLPでは未解決の課題である。
研究者やエンジニアは、評価設定に対するモデルの感度、メソッド間の適切な比較の難しさ、再現性と透明性の欠如など、方法論上の問題に直面している。
本稿では,大規模言語モデルの評価を3年間経験し,研究者に指導と授業を提供する。
まず,言語モデル評価において直面する共通課題について概説する。
第2に、これらの課題が研究に与える影響に対処または軽減するためのベストプラクティスを述べます。
第三に、言語モデル評価ハーネス(lm-eval:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model Evaluation Harness:Language Model
本稿では,これらの方法論的懸念を和らげるために,図書館の特徴と,図書館を利用した事例研究について述べる。
関連論文リスト
- NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。
WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文 参考訳(メタデータ) (2024-11-02T15:22:26Z) - Adding Error Bars to Evals: A Statistical Approach to Language Model Evaluations [0.6526824510982799]
評価に関する文献は、実験分析と計画に関する他の科学からの文献をほとんど無視してきた。
本稿は、言語モデル評価からのデータについて、統計学のトレーニングをおこなった研究者について紹介する。
論文 参考訳(メタデータ) (2024-11-01T14:57:16Z) - More Room for Language: Investigating the Effect of Retrieval on Language Models [3.8574940917179164]
本稿では、これらのモデルを完全に制御可能な環境で研究するための「理想的検索」手法を提案する。
本研究では,検索の強化が言語モデルの動作に与える影響を評価するための評価を行う。
論文 参考訳(メタデータ) (2024-04-16T22:43:48Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - L2CEval: Evaluating Language-to-Code Generation Capabilities of Large
Language Models [102.00201523306986]
大規模言語モデル(LLM)の言語間コード生成能力を体系的に評価するL2CEvalを提案する。
モデルのサイズ、事前学習データ、命令チューニング、異なるプロンプトメソッドなど、それらのパフォーマンスに影響を与える可能性のある要因を分析する。
モデル性能の評価に加えて、モデルに対する信頼性校正を計測し、出力プログラムの人間による評価を行う。
論文 参考訳(メタデータ) (2023-09-29T17:57:00Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Training Language Models with Natural Language Feedback [51.36137482891037]
3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。
合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価する。
人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。
論文 参考訳(メタデータ) (2022-04-29T15:06:58Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - Language Model Evaluation in Open-ended Text Generation [0.76146285961466]
本研究では,機械生成テキストの品質,多様性,一貫性を評価するために提案されている評価指標について検討する。
そこで我々は,オープン・エンド・ジェネレーション・タスクにおいて,言語モデルを評価するための実用的なパイプラインを提案する。
論文 参考訳(メタデータ) (2021-08-08T06:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。