論文の概要: CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in
Korean
- arxiv url: http://arxiv.org/abs/2403.06412v2
- Date: Tue, 12 Mar 2024 10:33:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:21:59.258589
- Title: CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in
Korean
- Title(参考訳): CLIcK:韓国における文化的・言語知能のベンチマークデータセット
- Authors: Eunsu Kim, Juyoung Suk, Philhoon Oh, Haneul Yoo, James Thorne, Alice
Oh
- Abstract要約: 韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
- 参考スコア(独自算出の注目度): 19.63074498876516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid development of large language models (LLMs) for the Korean
language, there remains an obvious lack of benchmark datasets that test the
requisite Korean cultural and linguistic knowledge. Because many existing
Korean benchmark datasets are derived from the English counterparts through
translation, they often overlook the different cultural contexts. For the few
benchmark datasets that are sourced from Korean data capturing cultural
knowledge, only narrow tasks such as bias and hate speech detection are
offered. To address this gap, we introduce a benchmark of Cultural and
Linguistic Intelligence in Korean (CLIcK), a dataset comprising 1,995 QA pairs.
CLIcK sources its data from official Korean exams and textbooks, partitioning
the questions into eleven categories under the two main categories of language
and culture. For each instance in CLIcK, we provide fine-grained annotation of
which cultural and linguistic knowledge is required to answer the question
correctly. Using CLIcK, we test 13 language models to assess their performance.
Our evaluation uncovers insights into their performances across the categories,
as well as the diverse factors affecting their comprehension. CLIcK offers the
first large-scale comprehensive Korean-centric analysis of LLMs' proficiency in
Korean culture and language.
- Abstract(参考訳): 韓国語のための大規模言語モデル(llm)の急速な発展にもかかわらず、必要な韓国文化と言語知識をテストするベンチマークデータセットが明らかに欠如している。
既存の朝鮮語のベンチマークデータセットの多くは英語の翻訳から派生しているため、異なる文化的文脈を見落としていることが多い。
韓国の文化知識を収集するデータから得られた数少ないベンチマークデータセットでは、バイアスやヘイトスピーチ検出といった狭いタスクのみが提供されている。
このギャップに対処するため、韓国の文化・言語知能のベンチマーク(CLIcK)を導入し、1,995のQAペアからなるデータセットについて述べる。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKの各事例について,その疑問に正しく答えるためには,文化知識と言語知識が必要である,詳細なアノテーションを提供する。
CLIcKを使用して、13の言語モデルをテストし、パフォーマンスを評価します。
評価の結果から,各カテゴリの業績や,理解に影響を及ぼすさまざまな要因が明らかになった。
CLIcKは韓国の文化と言語におけるLLMの習熟度に関する大規模な韓国中心の分析を初めて提供している。
関連論文リスト
- CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the
Generalizability of Large Language Models [74.08927882382943]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
28個のLCMを評価したところ,最高のモデルでは52.9%に過ぎず,顕著な性能差が認められた。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文 参考訳(メタデータ) (2023-09-06T04:38:16Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Towards standardizing Korean Grammatical Error Correction: Datasets and
Annotation [26.48270086631483]
韓国の文法的誤りを幅広くカバーするデータセットを提供する。
次に韓国語で14のエラータイプを定義し、並列コーパスから自動アノテート可能なKAGASを提供する。
我々のデータセットでトレーニングしたモデルは、より広い範囲のエラータイプにおいて、現在使われている統計的韓国のGECシステム(Hanspell)よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-10-25T23:41:52Z) - KOBEST: Korean Balanced Evaluation of Significant Tasks [3.664687661363732]
自然言語処理(NLP)分野の進歩を加速させる上で,十分に構成されたベンチマークが重要な役割を担っている。
我々は,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2022-04-09T20:13:51Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language
Understanding [4.576330530169462]
自然言語推論(NLI)と意味テキスト類似性(STS)は、自然言語理解(NLU)における重要なタスクである。
韓国語ではNLIやSTSのデータセットは公開されていない。
我々はそれぞれKorNLIとKorSTSと呼ばれる韓国のNLIとSTSのための新しいデータセットを構築し、リリースする。
論文 参考訳(メタデータ) (2020-04-07T11:49:15Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。