論文の概要: EnviroExam: Benchmarking Environmental Science Knowledge of Large Language Models
- arxiv url: http://arxiv.org/abs/2405.11265v1
- Date: Sat, 18 May 2024 11:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-21 18:38:17.589335
- Title: EnviroExam: Benchmarking Environmental Science Knowledge of Large Language Models
- Title(参考訳): EnviroExam:大規模言語モデルの環境科学知識のベンチマーク
- Authors: Yu Huang, Liang Guo, Wanqian Guo, Zhe Tao, Yang Lv, Zhihao Sun, Dongfang Zhao,
- Abstract要約: EnviroExamは、環境科学分野における大規模言語モデルの知識を評価するために設計された総合的な評価手法である。
31のオープンソースの大規模言語モデルで0ショットと5ショットのテストを実行することで、EnviroExamはこれらのモデルのパフォーマンスの違いを明らかにしている。
その結果、61.3%のモデルが5ショットテストに合格し、48.39%が0ショットテストに合格した。
- 参考スコア(独自算出の注目度): 5.165114836415248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of environmental science, it is crucial to have robust evaluation metrics for large language models to ensure their efficacy and accuracy. We propose EnviroExam, a comprehensive evaluation method designed to assess the knowledge of large language models in the field of environmental science. EnviroExam is based on the curricula of top international universities, covering undergraduate, master's, and doctoral courses, and includes 936 questions across 42 core courses. By conducting 0-shot and 5-shot tests on 31 open-source large language models, EnviroExam reveals the performance differences among these models in the domain of environmental science and provides detailed evaluation standards. The results show that 61.3% of the models passed the 5-shot tests, while 48.39% passed the 0-shot tests. By introducing the coefficient of variation as an indicator, we evaluate the performance of mainstream open-source large language models in environmental science from multiple perspectives, providing effective criteria for selecting and fine-tuning language models in this field. Future research will involve constructing more domain-specific test sets using specialized environmental science textbooks to further enhance the accuracy and specificity of the evaluation.
- Abstract(参考訳): 環境科学の分野では、その有効性と正確性を確保するために、大規模言語モデルに対する堅牢な評価指標を持つことが不可欠である。
本研究では,環境科学分野における大規模言語モデルの知識を評価するための総合評価手法であるEnviroExamを提案する。
EnviroExamは、トップクラスの国際大学のカリキュラムに基づいており、学部、修士課程、博士課程をカバーしており、42のコアコースに936の質問がある。
EnviroExamは、31のオープンソースの大規模言語モデルに対して0ショットと5ショットのテストをすることで、環境科学の分野におけるこれらのモデルのパフォーマンスの違いを明らかにし、詳細な評価基準を提供する。
その結果、61.3%のモデルが5ショットテストに合格し、48.39%が0ショットテストに合格した。
変動係数を指標として, 環境科学における主要なオープンソース大言語モデルの性能を多視点から評価し, この分野における言語モデルの選択と微調整に有効な基準を提供する。
今後の研究は、評価の精度と特異性をさらに高めるため、特殊な環境科学教科書を用いて、よりドメイン固有のテストセットを構築することを含む。
関連論文リスト
- Lessons from the Trenches on Reproducible Evaluation of Language Models [60.522749986793094]
我々は,大規模言語モデルの評価を3年間経験し,研究者に指導とレッスンを提供してきた。
本稿では,言語モデルの独立性,再現性,評価を行うオープンソースライブラリであるLanguage Model Evaluation Harness(lm-eval)を紹介する。
論文 参考訳(メタデータ) (2024-05-23T16:50:49Z) - Causal Evaluation of Language Models [33.328682644951286]
言語モデルの因果的推論能力を評価するための総合的なベンチマークとして,CaLM(Causal Evaluation of Language Models)がある。
CaLMは4つのモジュールからなる分類法であり、因果的対象(評価対象)、適応(結果の取得方法)、メートル法(結果の測定方法)、エラー(悪い結果の分析方法)である。
論文 参考訳(メタデータ) (2024-05-01T16:43:21Z) - Advancing the Evaluation of Traditional Chinese Language Models: Towards
a Comprehensive Benchmark Suite [17.764840326809797]
本稿では,既存の英語データセットを活用し,中国語の言語モデルを評価するための新しいベンチマークセットを提案する。
これらのベンチマークには、コンテキスト質問、要約、分類、テーブル理解など、幅広いタスクが含まれている。
本稿では,これらのベンチマークを用いて,GPT-3.5,台湾-LLaMa-v1.0,モデル7-Cの性能評価を行った。
論文 参考訳(メタデータ) (2023-09-15T14:52:23Z) - Performance of Large Language Models in a Computer Science Degree
Program [0.5330240017302619]
本稿では,応用科学大学大学院コンピュータサイエンス学位課程における大規模言語モデルの性能について述べる。
講義資料,運動課題,過去の試験をモデルに促すことで,各分野のコンピュータサイエンス分野にまたがってその習熟度を評価することを目指す。
We found that ChatGPT-3.5 averageed 79.9% of the total score in 10 test module, BingAI achieved 68.4%, and LLaMa, in the 6600 billion parameter variant, 20%。
論文 参考訳(メタデータ) (2023-07-24T14:17:00Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - Towards Better Instruction Following Language Models for Chinese:
Investigating the Impact of Training Data and Evaluation [12.86275938443485]
本研究では,データ量,品質,言語分布などの学習データ要素がモデル性能に及ぼす影響について検討する。
我々は,実世界の9つのシナリオを含む1,000のサンプルを用いて,様々なモデルを評価する。
GPT-3のようなプロプライエタリな言語モデルに最も近いオープンソースパフォーマンスを持つモデルであるLLaMAの語彙を拡張します。
論文 参考訳(メタデータ) (2023-04-16T18:37:39Z) - Large Language Models in the Workplace: A Case Study on Prompt
Engineering for Job Type Classification [58.720142291102135]
本研究では,実環境における職種分類の課題について検討する。
目標は、英語の求職が卒業生やエントリーレベルの地位に適切かどうかを判断することである。
論文 参考訳(メタデータ) (2023-03-13T14:09:53Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。