論文の概要: HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models
- arxiv url: http://arxiv.org/abs/2309.02706v1
- Date: Wed, 6 Sep 2023 04:38:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 16:57:47.747835
- Title: HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models
- Title(参考訳): HAE-RAE Bench: 言語モデルにおける韓国語知識の評価
- Authors: Guijin Son, Hanwool Lee, Suwan Kim, Jaecheol Lee, Je Won Yeom, Jihyu
Jung, Jung Woo Kim, Songseong Kim
- Abstract要約: 本稿では、語彙、歴史、一般知識を含む6つのタスクをカバーしたHAE-RAE Benchを紹介する。
注目すべきは、GPT-3.5の約13倍のモデルでは、言語固有の知識検索において、同様のパフォーマンスレベルを示すことができることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) pretrained on massive corpora exhibit remarkable
capabilities across a wide range of tasks, however, the attention given to
non-English languages has been limited in this field of research. To address
this gap and assess the proficiency of language models in the Korean language
and culture, we present HAE-RAE Bench, covering 6 tasks including vocabulary,
history, and general knowledge. Our evaluation of language models on this
benchmark highlights the potential advantages of employing Large
Language-Specific Models(LLSMs) over a comprehensive, universal model like
GPT-3.5. Remarkably, our study reveals that models approximately 13 times
smaller than GPT-3.5 can exhibit similar performance levels in terms of
language-specific knowledge retrieval. This observation underscores the
importance of homogeneous corpora for training professional-level
language-specific models. On the contrary, we also observe a perplexing
performance dip in these smaller LMs when they are tasked to generate
structured answers.
- Abstract(参考訳): 大規模コーパスに事前学習された大規模言語モデル(llm)は、幅広いタスクにわたって顕著な能力を発揮するが、非英語言語への注目はこの分野で限定されている。
このギャップに対処し,韓国語・文化における言語モデルの習熟度を評価するために,語彙,歴史,一般知識を含む6つのタスクをカバーするhae-raeベンチを提案する。
本ベンチマークでは, GPT-3.5のような包括的, 普遍的モデルに対して, LLSM(Large Language-Specific Models)を用いることの潜在的な利点を強調した。
本研究は,GPT-3.5の約13倍のモデルで,言語固有の知識検索において,同様の性能を示すことを示す。
この観察は、プロレベルの言語特化モデルを訓練するための均質コーパスの重要性を強調している。
それとは対照的に、構造化された回答を生成するよう指示されたとき、これらの小さなLMのパープレッション性能の低下も観察する。
関連論文リスト
- FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。
本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。
以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文 参考訳(メタデータ) (2024-04-29T01:49:07Z) - MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。
MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。
MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文 参考訳(メタデータ) (2024-04-07T15:23:28Z) - HyperCLOVA X Technical Report [119.94633129762133]
韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。
HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。
このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-04-02T13:48:49Z) - CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [18.526285276022907]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文 参考訳(メタデータ) (2024-03-11T03:54:33Z) - KoDialogBench: Evaluating Conversational Understanding of Language
Models with Korean Dialogue Benchmark [21.51975668214383]
韓国語における言語モデルの対話能力を評価するためのベンチマークであるKoDialogBenchを紹介する。
日常の話題に関する韓国語の対話を公開情報源から収集したり、他言語からの対話を翻訳したりする。
次に、これらの会話を多様なテストデータセットに構成し、対話理解から応答選択タスクにまたがる。
論文 参考訳(メタデータ) (2024-02-27T10:14:57Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Knowledge Graph-Augmented Korean Generative Commonsense Reasoning [5.951529604050278]
韓国の知識グラフデータをテキスト生成に利用する手法を提案する。
実験の結果,提案手法は韓国のコモンセンス推論の効率を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-26T07:23:47Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - KOBEST: Korean Balanced Evaluation of Significant Tasks [3.664687661363732]
自然言語処理(NLP)分野の進歩を加速させる上で,十分に構成されたベンチマークが重要な役割を担っている。
我々は,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2022-04-09T20:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。