論文の概要: KLUE: Korean Language Understanding Evaluation
- arxiv url: http://arxiv.org/abs/2105.09680v2
- Date: Fri, 21 May 2021 05:54:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-29 19:57:45.531397
- Title: KLUE: Korean Language Understanding Evaluation
- Title(参考訳): klue: 韓国語理解の評価
- Authors: Sungjoon Park, Jihyung Moon, Sungdong Kim, Won Ik Cho, Jiyoon Han,
Jangwon Park, Chisung Song, Junseong Kim, Yongsook Song, Taehwan Oh, Joohong
Lee, Juhyun Oh, Sungwon Lyu, Younghoon Jeong, Inkwon Lee, Sangwoo Seo,
Dongjun Lee, Hyunwoo Kim, Myeonghwa Lee, Seongbo Jang, Seungwon Do, Sunkyoung
Kim, Kyungtae Lim, Jongwon Lee, Kyumin Park, Jamin Shin, Seonghyun Kim, Lucy
Park, Alice Oh, Jung-Woo Ha, Kyunghyun Cho
- Abstract要約: 韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
- 参考スコア(独自算出の注目度): 43.94952771238633
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce Korean Language Understanding Evaluation (KLUE) benchmark. KLUE
is a collection of 8 Korean natural language understanding (NLU) tasks,
including Topic Classification, SemanticTextual Similarity, Natural Language
Inference, Named Entity Recognition, Relation Extraction, Dependency Parsing,
Machine Reading Comprehension, and Dialogue State Tracking. We build all of the
tasks from scratch from diverse source corpora while respecting copyrights, to
ensure accessibility for anyone without any restrictions. With ethical
considerations in mind, we carefully design annotation protocols. Along with
the benchmark tasks and data, we provide suitable evaluation metrics and
fine-tuning recipes for pretrained language models for each task. We
furthermore release the pretrained language models (PLM), KLUE-BERT and
KLUE-RoBERTa, to help reproducing baseline models on KLUE and thereby
facilitate future research. We make a few interesting observations from the
preliminary experiments using the proposed KLUE benchmark suite, already
demonstrating the usefulness of this new benchmark suite. First, we find
KLUE-RoBERTa-large outperforms other baselines, including multilingual PLMs and
existing open-source Korean PLMs. Second, we see minimal degradation in
performance even when we replace personally identifiable information from the
pretraining corpus, suggesting that privacy and NLU capability are not at odds
with each other. Lastly, we find that using BPE tokenization in combination
with morpheme-level pre-tokenization is effective in tasks involving
morpheme-level tagging, detection and generation. In addition to accelerating
Korean NLP research, our comprehensive documentation on creating KLUE will
facilitate creating similar resources for other languages in the future. KLUE
is available at <a class="link-external link-https"
href="https://klue-benchmark.com/">this URL</a>.
- Abstract(参考訳): 韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、トピック分類、セマンティックテキスト類似性、自然言語推論、名前付きエンティティ認識、関係抽出、依存関係解析、機械読解、対話状態追跡を含む、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
私たちは、著作権を尊重しながら、さまざまなソースコーパスからすべてのタスクをスクラッチから構築します。
倫理的考察を念頭に、アノテーションプロトコルを慎重に設計する。
ベンチマークタスクとデータに加えて,各タスクの事前学習した言語モデルに対して,適切な評価指標と微調整レシピを提供する。
さらに, プレトレーニング言語モデル (PLM), KLUE-BERT, KLUE-RoBERTa もリリースし, KLUE のベースラインモデルを再現し, 今後の研究を促進する。
我々は,提案したKLUEベンチマークスイートを用いた予備実験から,このベンチマークスイートの有用性をすでに実証している。
まず、KLUE-RoBERTa-largeは、多言語PLMや既存のオープンソースの韓国PLMなど、他のベースラインよりも優れています。
第2に、事前学習したコーパスから個人識別可能な情報を置き換えても、パフォーマンスの低下は最小限に抑えられ、プライバシとNLUの能力は互いに相反するものではないことを示唆する。
最後に,BPEトークン化とモーフィムレベルの事前トークン化を併用することで,モーフィムレベルのタグ付けや検出,生成といったタスクに有効であることが判明した。
韓国のNLP研究の加速に加えて、KLUEの作成に関する包括的なドキュメントは、将来他の言語にも同様のリソースを作成できるようにします。
KLUEは<a class="link-external link-https"href="https://klue-benchmark.com/"> this URL</a>で利用できる。
関連論文リスト
- AAVENUE: Detecting LLM Biases on NLU Tasks in AAVE via a Novel Benchmark [3.1927733045184885]
AAVENUE は、AAVE と Standard American English の NLU タスクにおける大きな言語モデル (LLM) のパフォーマンスを評価するためのベンチマークである。
AAVENUE と VALUE の翻訳を,5つの人気のある LLM と,フルーエンシ,BARTScore,品質,コヒーレンス,理解可能性などの総合的な指標を用いて比較した。
評価の結果, LLM は AAVE に翻訳されたバージョンよりも, SAE タスクで一貫した性能が向上し, 固有のバイアスが強調された。
論文 参考訳(メタデータ) (2024-08-27T07:56:35Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - NLPre: a revised approach towards language-centric benchmarking of Natural Language Preprocessing systems [2.141587359797428]
規則に基づく形態解析や辞書を頼りに、新しい解を十分に整合した前処理ツールキットと比較することは困難である。
GLUEベンチマークにインスパイアされたこの言語中心ベンチマークシステムは、複数のNLPreツールの包括的な評価を可能にする。
プロトタイプアプリケーションはポーランド語用に設定されており、完全に組み立てられたNLPre-PLベンチマークと統合されている。
論文 参考訳(メタデータ) (2024-03-07T14:07:00Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - This is the way: designing and compiling LEPISZCZE, a comprehensive NLP
benchmark for Polish [5.8090623549313944]
ポーランドNLPの新しい総合ベンチマークであるLEPISZCZEを紹介する。
ポーランドのベンチマークから5つのデータセットを使用し、8つの新しいデータセットを追加しています。
我々はポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語のための同様のベンチマークを設計する青写真を提供する。
論文 参考訳(メタデータ) (2022-11-23T16:51:09Z) - KOBEST: Korean Balanced Evaluation of Significant Tasks [3.664687661363732]
自然言語処理(NLP)分野の進歩を加速させる上で,十分に構成されたベンチマークが重要な役割を担っている。
我々は,韓国語下流5つのタスクからなる重要なタスク(KoBEST)について,韓国語バランス評価という新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2022-04-09T20:13:51Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - On Cross-Lingual Retrieval with Multilingual Text Encoders [51.60862829942932]
言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性について検討する。
教師なしのアドホック文と文書レベルのCLIR実験でそれらの性能をベンチマークする。
我々は、ゼロショット言語とドメイン転送CLIR実験のシリーズにおける英語関連データに基づいて、教師付き方式で微調整された多言語エンコーダの評価を行った。
論文 参考訳(メタデータ) (2021-12-21T08:10:27Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language
Understanding [4.576330530169462]
自然言語推論(NLI)と意味テキスト類似性(STS)は、自然言語理解(NLU)における重要なタスクである。
韓国語ではNLIやSTSのデータセットは公開されていない。
我々はそれぞれKorNLIとKorSTSと呼ばれる韓国のNLIとSTSのための新しいデータセットを構築し、リリースする。
論文 参考訳(メタデータ) (2020-04-07T11:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。