Fugu-MT 論文翻訳(概要): HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models

論文の概要: HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models

arxiv url: http://arxiv.org/abs/2309.02706v1
Date: Wed, 6 Sep 2023 04:38:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 16:57:47.747835
Title: HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models
Title（参考訳）: HAE-RAE Bench: 言語モデルにおける韓国語知識の評価
Authors: Guijin Son, Hanwool Lee, Suwan Kim, Jaecheol Lee, Je Won Yeom, Jihyu Jung, Jung Woo Kim, Songseong Kim
Abstract要約: 本稿では、語彙、歴史、一般知識を含む6つのタスクをカバーしたHAE-RAE Benchを紹介する。注目すべきは、GPT-3.5の約13倍のモデルでは、言語固有の知識検索において、同様のパフォーマンスレベルを示すことができることである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large Language Models (LLMs) pretrained on massive corpora exhibit remarkable capabilities across a wide range of tasks, however, the attention given to non-English languages has been limited in this field of research. To address this gap and assess the proficiency of language models in the Korean language and culture, we present HAE-RAE Bench, covering 6 tasks including vocabulary, history, and general knowledge. Our evaluation of language models on this benchmark highlights the potential advantages of employing Large Language-Specific Models(LLSMs) over a comprehensive, universal model like GPT-3.5. Remarkably, our study reveals that models approximately 13 times smaller than GPT-3.5 can exhibit similar performance levels in terms of language-specific knowledge retrieval. This observation underscores the importance of homogeneous corpora for training professional-level language-specific models. On the contrary, we also observe a perplexing performance dip in these smaller LMs when they are tasked to generate structured answers.
Abstract（参考訳）: 大規模コーパスに事前学習された大規模言語モデル(llm)は、幅広いタスクにわたって顕著な能力を発揮するが、非英語言語への注目はこの分野で限定されている。このギャップに対処し,韓国語・文化における言語モデルの習熟度を評価するために,語彙,歴史,一般知識を含む6つのタスクをカバーするhae-raeベンチを提案する。本ベンチマークでは, GPT-3.5のような包括的, 普遍的モデルに対して, LLSM(Large Language-Specific Models)を用いることの潜在的な利点を強調した。本研究は,GPT-3.5の約13倍のモデルで,言語固有の知識検索において,同様の性能を示すことを示す。この観察は、プロレベルの言語特化モデルを訓練するための均質コーパスの重要性を強調している。それとは対照的に、構造化された回答を生成するよう指示されたとき、これらの小さなLMのパープレッション性能の低下も観察する。

関連論文リスト

KITE: A Benchmark for Evaluating Korean Instruction-Following Abilities in Large Language Models [36.90941464587649]
本稿では,韓国語指導フォロータスク評価(KITE)について紹介する。事実知識や複数選択テストに重点を置いている既存の韓国のベンチマークとは異なり、KITEは多様なオープンエンド命令フォロータスクを直接ターゲットとしている。
論文参考訳（メタデータ） (2025-10-17T11:45:15Z)
MMA-ASIA: A Multilingual and Multimodal Alignment Framework for Culturally-Grounded Evaluation [91.22008265721952]
MMA-ASIAは、アジア8か国と10か国を対象とする人為的、多言語的、マルチモーダルなベンチマークに重点を置いている。これは、テキスト、画像(視覚的質問応答)、音声の3つのモードにまたがる入力レベルで整列された最初のデータセットである。 i) 国間の文化的認識格差、(ii) 言語間の整合性、(iii) 言語間の整合性、(iv) 文化知識の一般化、(v) 基礎的妥当性を評価する5次元評価プロトコルを提案する。
論文参考訳（メタデータ） (2025-10-07T14:12:12Z)
Nunchi-Bench: Benchmarking Language Models on Cultural Reasoning with a Focus on Korean Superstition [0.0]
大規模言語モデルの文化的理解を評価するためのベンチマークであるNunchi-Benchを紹介する。このベンチマークは、31のトピックにまたがる247の質問、事実的知識の評価、文化的に適切なアドバイス、状況的解釈で構成されている。韓国語と英語の多言語LLMを評価し,韓国語文化の文脈を判断する能力について分析した。
論文参考訳（メタデータ） (2025-07-05T11:52:09Z)
Disentangling Language and Culture for Evaluating Multilingual Large Language Models [48.06219053598005]
本稿では,LLMの多言語機能を包括的に評価するデュアル評価フレームワークを提案する。言語媒体と文化的文脈の次元に沿って評価を分解することにより、LLMが言語間を横断的に処理する能力の微妙な分析を可能にする。
論文参考訳（メタデータ） (2025-05-30T14:25:45Z)
HKCanto-Eval: A Benchmark for Evaluating Cantonese Language Understanding and Cultural Comprehension in LLMs [0.0]
HKCanto-Evalベンチマークは、カントン言語理解タスクにおける大きな言語モデルを評価するために設計されている。香港固有の文化的・言語的なニュアンスを統合し、現実的なシナリオで言語モデルを評価するための堅牢な枠組みを提供する。その結果,プロプライエタリなモデルは一般にオープンウェイトモデルより優れているが,カントン固有の言語的・文化的知識を扱う上では,大きな制限が残っていることが示唆された。
論文参考訳（メタデータ） (2025-03-16T10:26:24Z)
XIFBench: Evaluating Large Language Models on Multilingual Instruction Following [59.549015333755186]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる優れた命令追従機能を示している。既存の評価には、様々な言語的文脈におけるきめ細かい制約分析が欠如している。我々は,LLMの多言語命令追従能力を評価するための総合ベンチマークであるXIFBenchを紹介する。
論文参考訳（メタデータ） (2025-03-10T17:07:52Z)
KULTURE Bench: A Benchmark for Assessing Language Model in Korean Cultural Context [5.693660906643207]
韓国文化に特化して設計された評価フレームワークであるKULTURE Benchを紹介する。言語モデルの文化的理解と、単語、文、段落レベルでの推論能力を評価するように設計されている。その結果,韓国文化のより深い側面に関連する文章の理解は,依然として改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-12-10T07:20:51Z)
RedWhale: An Adapted Korean LLM Through Efficient Continual Pretraining [0.0]
韓国語処理に特化したモデルであるRedWhaleを紹介する。 RedWhaleは、韓国の包括的コーパス前処理パイプラインを含む効率的な継続事前訓練アプローチを用いて開発されている。実験の結果、RedWhaleは韓国のNLPベンチマークで他の主要なモデルよりも優れていた。
論文参考訳（メタデータ） (2024-08-21T02:49:41Z)
Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning [47.75550640881761]
非英語タスクに適用することで、命令チューニングにおける言語間一般化について検討する。我々は、言語における不一致を軽減するために言語間テンプレートを設計し、トレーニングと推論の間のテンプレートの命令形式を規定する。実験の結果,英語と韓国語の両方の言語間一般化による一貫した改善が示された。
論文参考訳（メタデータ） (2024-06-13T04:10:17Z)
FoundaBench: Evaluating Chinese Fundamental Knowledge Capabilities of Large Language Models [64.11333762954283]
本稿では,中国のLLMの基本知識能力を厳格に評価するための先駆的ベンチマークであるFoundaBenchを紹介する。本稿では、従来の評価手法とCircularEvalプロトコルの両方を用いて、モデル応答の潜在的なバイアスを軽減するため、FoundaBenchを用いた12の最先端LCMの広範な評価を行う。以上の結果から,中国のコーパスで事前学習したモデルの性能が向上し,モデル推論とメモリリコール能力の相違が明らかとなった。
論文参考訳（メタデータ） (2024-04-29T01:49:07Z)
MLaKE: Multilingual Knowledge Editing Benchmark for Large Language Models [65.10456412127405]
MLaKEは5言語にわたる知識編集手法の適応性のベンチマークである。 MLaKEは、ウィキペディアから言語にまたがるファクトチェーンを集約し、フリーフォームとマルチチョイスの両方で質問を生成する。 MLaKEにおける既存手法の多言語知識編集の一般化能力を評価する。
論文参考訳（メタデータ） (2024-04-07T15:23:28Z)
HyperCLOVA X Technical Report [119.94633129762133]
韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。 HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
論文参考訳（メタデータ） (2024-04-02T13:48:49Z)
Pragmatic Competence Evaluation of Large Language Models for the Korean Language [0.6757476692230009]
本研究では,Large Language Models (LLMs) が,特に韓国語における実践的視点から,文脈依存表現をいかによく理解しているかを評価する。自動評価にはMultiple-Choice Questions(MCQ)と、専門家によるOEQ(Open-Ended Questions)の両方を用いる。
論文参考訳（メタデータ） (2024-03-19T12:21:20Z)
CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean [18.526285276022907]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。 CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。 CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文参考訳（メタデータ） (2024-03-11T03:54:33Z)
LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。 C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文参考訳（メタデータ） (2024-01-02T06:29:02Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
KOBEST: Korean Balanced Evaluation of Significant Tasks [3.664687661363732]
自然言語処理(NLP)分野の進歩を加速させる上で,十分に構成されたベンチマークが重要な役割を担っている。我々は,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。
論文参考訳（メタデータ） (2022-04-09T20:13:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。