論文の概要: KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language
Understanding
- arxiv url: http://arxiv.org/abs/2004.03289v3
- Date: Mon, 5 Oct 2020 09:28:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 23:58:50.572151
- Title: KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language
Understanding
- Title(参考訳): KorNLIとKorSTS:韓国の自然言語理解のためのベンチマークデータセット
- Authors: Jiyeon Ham, Yo Joong Choe, Kyubyong Park, Ilji Choi, Hyungjoon Soh
- Abstract要約: 自然言語推論(NLI)と意味テキスト類似性(STS)は、自然言語理解(NLU)における重要なタスクである。
韓国語ではNLIやSTSのデータセットは公開されていない。
我々はそれぞれKorNLIとKorSTSと呼ばれる韓国のNLIとSTSのための新しいデータセットを構築し、リリースする。
- 参考スコア(独自算出の注目度): 4.576330530169462
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Natural language inference (NLI) and semantic textual similarity (STS) are
key tasks in natural language understanding (NLU). Although several benchmark
datasets for those tasks have been released in English and a few other
languages, there are no publicly available NLI or STS datasets in the Korean
language. Motivated by this, we construct and release new datasets for Korean
NLI and STS, dubbed KorNLI and KorSTS, respectively. Following previous
approaches, we machine-translate existing English training sets and manually
translate development and test sets into Korean. To accelerate research on
Korean NLU, we also establish baselines on KorNLI and KorSTS. Our datasets are
publicly available at https://github.com/kakaobrain/KorNLUDatasets.
- Abstract(参考訳): 自然言語推論(NLI)と意味テキスト類似(STS)は、自然言語理解(NLU)において重要なタスクである。
これらのタスクのベンチマークデータセットは英語や他のいくつかの言語でリリースされているが、韓国語ではNLIやSTSデータセットが公開されていない。
そこで我々は,KorNLI と KorSTS と呼ばれる韓国の NLI と STS の新しいデータセットの構築とリリースを行った。
従来のアプローチに従って、既存の英語学習セットを機械翻訳し、手動で開発とテストセットを韓国語に翻訳する。
韓国のNLUの研究を加速するため,KorNLIとKorSTSのベースラインを構築した。
データセットはhttps://github.com/kakaobrain/KorNLUDatasetsで公開されています。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Compositional Evaluation on Japanese Textual Entailment and Similarity [20.864082353441685]
自然言語推論(NLI)とセマンティックテキスト類似性(STS)は、事前訓練された言語モデルの合成評価に広く用いられている。
言語普遍論への関心が高まりつつあるにもかかわらず、ほとんどのNLI/STS研究は英語にのみ焦点を絞っている。
日本語で利用可能な多言語NLI/STSデータセットは存在しない。
論文 参考訳(メタデータ) (2022-08-09T15:10:56Z) - KLUE: Korean Language Understanding Evaluation [43.94952771238633]
韓国語理解評価(KLUE)ベンチマークを紹介する。
KLUEは、韓国の8つの自然言語理解(NLU)タスクのコレクションである。
著作権を尊重しながら、さまざまなソースコーパスから、すべてのタスクをゼロから構築します。
論文 参考訳(メタデータ) (2021-05-20T11:40:30Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - OCNLI: Original Chinese Natural Language Inference [21.540733910984006]
我々は,中国における最初の大規模NLIデータセット(56,000の注釈付き文対からなる)であるOriginal Chinese Natural Language Inference dataset(OCNLI)を提示する。
NLIを他の言語に拡張しようとする最近の試みとは異なり、私たちのデータセットは自動翻訳や非専門家アノテーションに依存していません。
我々は、中国語の最先端の事前訓練モデルを用いて、データセット上でいくつかのベースライン結果を確立し、人間のパフォーマンスよりもはるかに優れたパフォーマンスモデルを見つける。
論文 参考訳(メタデータ) (2020-10-12T04:25:48Z) - Mining Knowledge for Natural Language Inference from Wikipedia
Categories [53.26072815839198]
NLIおよびLEタスクのモデル性能を改善するためのリソースであるWikiNLIを紹介する。
ウィキペディアには、自然に注釈付けされたカテゴリー階層から作られた428,899の句が含まれている。
我々は、BERTやRoBERTaのような強力なベースラインをWikiNLIで事前訓練し、下流タスクでモデルを転送することで改善できることを示します。
論文 参考訳(メタデータ) (2020-10-03T00:45:01Z) - Data and Representation for Turkish Natural Language Inference [6.135815931215188]
トルコ語における自然言語推論(NLI)に対する肯定的な反応を提供する。
2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。
言語内埋め込みは必須であり,学習セットが大きい場所では形態的解析が避けられることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:12:52Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。