論文の概要: CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in
Korean
- arxiv url: http://arxiv.org/abs/2403.06412v2
- Date: Tue, 12 Mar 2024 10:33:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:21:59.258589
- Title: CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in
Korean
- Title(参考訳): CLIcK:韓国における文化的・言語知能のベンチマークデータセット
- Authors: Eunsu Kim, Juyoung Suk, Philhoon Oh, Haneul Yoo, James Thorne, Alice
Oh
- Abstract要約: 韓国における1,995対のQAペアからなる文化・言語知能のベンチマークについて紹介する。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKを用いて、13の言語モデルを用いて、パフォーマンスを評価する。評価では、カテゴリ間でのパフォーマンスに関する洞察と、その理解に影響を与えるさまざまな要因を明らかにする。
- 参考スコア(独自算出の注目度): 19.63074498876516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the rapid development of large language models (LLMs) for the Korean
language, there remains an obvious lack of benchmark datasets that test the
requisite Korean cultural and linguistic knowledge. Because many existing
Korean benchmark datasets are derived from the English counterparts through
translation, they often overlook the different cultural contexts. For the few
benchmark datasets that are sourced from Korean data capturing cultural
knowledge, only narrow tasks such as bias and hate speech detection are
offered. To address this gap, we introduce a benchmark of Cultural and
Linguistic Intelligence in Korean (CLIcK), a dataset comprising 1,995 QA pairs.
CLIcK sources its data from official Korean exams and textbooks, partitioning
the questions into eleven categories under the two main categories of language
and culture. For each instance in CLIcK, we provide fine-grained annotation of
which cultural and linguistic knowledge is required to answer the question
correctly. Using CLIcK, we test 13 language models to assess their performance.
Our evaluation uncovers insights into their performances across the categories,
as well as the diverse factors affecting their comprehension. CLIcK offers the
first large-scale comprehensive Korean-centric analysis of LLMs' proficiency in
Korean culture and language.
- Abstract(参考訳): 韓国語のための大規模言語モデル(llm)の急速な発展にもかかわらず、必要な韓国文化と言語知識をテストするベンチマークデータセットが明らかに欠如している。
既存の朝鮮語のベンチマークデータセットの多くは英語の翻訳から派生しているため、異なる文化的文脈を見落としていることが多い。
韓国の文化知識を収集するデータから得られた数少ないベンチマークデータセットでは、バイアスやヘイトスピーチ検出といった狭いタスクのみが提供されている。
このギャップに対処するため、韓国の文化・言語知能のベンチマーク(CLIcK)を導入し、1,995のQAペアからなるデータセットについて述べる。
CLIcKは、公式の韓国の試験と教科書からデータを入手し、質問を言語と文化の2つの主要なカテゴリで11のカテゴリに分けている。
CLIcKの各事例について,その疑問に正しく答えるためには,文化知識と言語知識が必要である,詳細なアノテーションを提供する。
CLIcKを使用して、13の言語モデルをテストし、パフォーマンスを評価します。
評価の結果から,各カテゴリの業績や,理解に影響を及ぼすさまざまな要因が明らかになった。
CLIcKは韓国の文化と言語におけるLLMの習熟度に関する大規模な韓国中心の分析を初めて提供している。
関連論文リスト
- WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - Deep Exploration of Cross-Lingual Zero-Shot Generalization in Instruction Tuning [47.75550640881761]
非英語タスクに適用することで、命令チューニングにおける言語間一般化について検討する。
我々は、言語における不一致を軽減するために言語間テンプレートを設計し、トレーニングと推論の間のテンプレートの命令形式を規定する。
実験の結果,英語と韓国語の両方の言語間一般化による一貫した改善が示された。
論文 参考訳(メタデータ) (2024-06-13T04:10:17Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - HyperCLOVA X Technical Report [119.94633129762133]
韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xを紹介する。
HyperCLOVA Xは韓国語、英語、コードデータのバランスの取れた混合でトレーニングされ、その後、高品質な人間アノテーション付きデータセットによる命令チューニングが行われた。
このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。
論文 参考訳(メタデータ) (2024-04-02T13:48:49Z) - HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models [0.0]
HAE-RAE Benchは,韓国の文化的・文脈的深度に欠けるモデルに挑戦するためのデータセットである。
このデータセットは、語彙、歴史、一般的な知識、読み理解の4つの領域にまたがる6つの下流タスクを含んでいる。
論文 参考訳(メタデータ) (2023-09-06T04:38:16Z) - Understanding Translationese in Cross-Lingual Summarization [106.69566000567598]
言語間要約(MS)は、異なる対象言語で簡潔な要約を生成することを目的としている。
大規模なCLSデータを集めるために、既存のデータセットは通常、それらの生成に翻訳を伴います。
本稿では、まず、CLSデータセット構築の異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。
論文 参考訳(メタデータ) (2022-12-14T13:41:49Z) - Towards standardizing Korean Grammatical Error Correction: Datasets and
Annotation [26.48270086631483]
韓国の文法的誤りを幅広くカバーするデータセットを提供する。
次に韓国語で14のエラータイプを定義し、並列コーパスから自動アノテート可能なKAGASを提供する。
我々のデータセットでトレーニングしたモデルは、より広い範囲のエラータイプにおいて、現在使われている統計的韓国のGECシステム(Hanspell)よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-10-25T23:41:52Z) - KOBEST: Korean Balanced Evaluation of Significant Tasks [3.664687661363732]
自然言語処理(NLP)分野の進歩を加速させる上で,十分に構成されたベンチマークが重要な役割を担っている。
我々は,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2022-04-09T20:13:51Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。