論文の概要: HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models
- arxiv url: http://arxiv.org/abs/2309.02706v4
- Date: Sat, 23 Sep 2023 07:44:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 01:00:44.951698
- Title: HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models
- Title(参考訳): HAE-RAE Bench: 言語モデルにおける韓国語知識の評価
- Authors: Guijin Son, Hanwool Lee, Suwan Kim, Huiseo Kim, Jaecheol Lee, Je Won
Yeom, Jihyu Jung, Jung Woo Kim, Songseong Kim
- Abstract要約: HAE-RAE Benchは韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) trained on massive corpora demonstrate
impressive capabilities in a wide range of tasks. While there are ongoing
efforts to adapt these models to languages beyond English, the attention given
to their evaluation methodologies remains limited. Current multilingual
benchmarks often rely on back translations or re-implementations of English
tests, limiting their capacity to capture unique cultural and linguistic
nuances. To bridge this gap for the Korean language, we introduce HAE-RAE
Bench, a dataset curated to challenge models lacking Korean cultural and
contextual depth. The dataset encompasses six downstream tasks across four
domains: vocabulary, history, general knowledge, and reading comprehension.
Contrary to traditional evaluation suites focused on token or sequence
classification and specific mathematical or logical reasoning, HAE-RAE Bench
emphasizes a model's aptitude for recalling Korean-specific knowledge and
cultural contexts. Comparative analysis with prior Korean benchmarks indicates
that the HAE-RAE Bench presents a greater challenge to non-native models, by
disturbing abilities and knowledge learned from English being transferred.
- Abstract(参考訳): 大規模なコーパスで訓練された大規模言語モデル(LLM)は、幅広いタスクにおいて印象的な能力を示している。
これらのモデルを英語以外の言語に適応する努力が進行中であるが、評価手法への注目は限定的である。
現在の多言語ベンチマークは、しばしば英語のテストの翻訳や再実装に依存し、独自の文化的・言語的なニュアンスを捉える能力を制限する。
このギャップを埋めるために,韓国文化や文脈の深さを欠いたモデルに挑戦するためのデータセットであるhae-rae benchを紹介する。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
トークンやシーケンス分類や特定の数学的あるいは論理的な推論に焦点を当てた従来の評価スイートとは対照的に、hae-rae benchは、韓国固有の知識や文化的文脈を思い出すモデルの適性を強調している。
以前の韓国のベンチマークとの比較分析では、HAE-RAEベンチは、英語から学んだ能力や知識を移譲することで、非ネイティブモデルにより大きな課題をもたらすことを示している。
関連論文リスト
- CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in
Korean [19.63074498876516]
韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
論文 参考訳(メタデータ) (2024-03-11T03:54:33Z) - KoDialogBench: Evaluating Conversational Understanding of Language
Models with Korean Dialogue Benchmark [21.51975668214383]
韓国語における言語モデルの対話能力を評価するためのベンチマークであるKoDialogBenchを紹介する。
日常の話題に関する韓国語の対話を公開情報源から収集したり、他言語からの対話を翻訳したりする。
次に、これらの会話を多様なテストデータセットに構成し、対話理解から応答選択タスクにまたがる。
論文 参考訳(メタデータ) (2024-02-27T10:14:57Z) - LLaMA Beyond English: An Empirical Study on Language Capability Transfer [49.298360366468934]
我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
論文 参考訳(メタデータ) (2024-01-02T06:29:02Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Knowledge Graph-Augmented Korean Generative Commonsense Reasoning [5.951529604050278]
韓国の知識グラフデータをテキスト生成に利用する手法を提案する。
実験の結果,提案手法は韓国のコモンセンス推論の効率を向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-26T07:23:47Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - KOBEST: Korean Balanced Evaluation of Significant Tasks [3.664687661363732]
自然言語処理(NLP)分野の進歩を加速させる上で,十分に構成されたベンチマークが重要な役割を担っている。
我々は,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2022-04-09T20:13:51Z) - EnCBP: A New Benchmark Dataset for Finer-Grained Cultural Background
Prediction in English [25.38572483508948]
文化的背景を持つ自然言語処理モデルを拡張した。
英語を話す5カ国と米国の4州で、言語表現に顕著な違いがあることが示されている。
本研究は,多種多様なNLPタスクに対する文化的背景モデリングの重要性を裏付け,文化関連研究におけるEnCBPの適用性を示すものである。
論文 参考訳(メタデータ) (2022-03-28T04:57:17Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。