論文の概要: RuCoLA: Russian Corpus of Linguistic Acceptability
- arxiv url: http://arxiv.org/abs/2210.12814v1
- Date: Sun, 23 Oct 2022 18:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 16:34:37.334849
- Title: RuCoLA: Russian Corpus of Linguistic Acceptability
- Title(参考訳): RuCoLA:ロシアの言語受容性企業
- Authors: Vladislav Mikhailov, Tatiana Shamardina, Max Ryabinin, Alena Pestova,
Ivan Smurov, Ekaterina Artemova
- Abstract要約: ロシア言語受容性コーパス(RuCoLA)について紹介する。
RuCoLAは、言語出版物の9.8ドルのドメイン内文と、生成モデルによって生成される3.6ドルのドメイン外文で構成されている。
最も広く使われている言語モデルは、特に形態的および意味的誤りを検出する際に、大きなマージンで人間に後れを取っていることを実証する。
- 参考スコア(独自算出の注目度): 6.500438378175089
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Linguistic acceptability (LA) attracts the attention of the research
community due to its many uses, such as testing the grammatical knowledge of
language models and filtering implausible texts with acceptability classifiers.
However, the application scope of LA in languages other than English is limited
due to the lack of high-quality resources. To this end, we introduce the
Russian Corpus of Linguistic Acceptability (RuCoLA), built from the ground up
under the well-established binary LA approach. RuCoLA consists of $9.8$k
in-domain sentences from linguistic publications and $3.6$k out-of-domain
sentences produced by generative models. The out-of-domain set is created to
facilitate the practical use of acceptability for improving language
generation. Our paper describes the data collection protocol and presents a
fine-grained analysis of acceptability classification experiments with a range
of baseline approaches. In particular, we demonstrate that the most widely used
language models still fall behind humans by a large margin, especially when
detecting morphological and semantic errors. We release RuCoLA, the code of
experiments, and a public leaderboard (rucola-benchmark.com) to assess the
linguistic competence of language models for Russian.
- Abstract(参考訳): 言語学的受容性(LA)は、言語モデルの文法的知識のテストや、アクセプタビリティ分類器による不明瞭テキストのフィルタリングなど、多くの用途で研究コミュニティの注目を集めている。
しかし、英語以外の言語でのLAの適用範囲は、高品質なリソースが不足しているため限られている。
この目的のために、我々は、よく確立されたバイナリLAアプローチの下でゼロから構築されたRuCoLA(ロシア語コーパス・オブ・リングリスティック・アクセプタビリティ)を導入する。
RuCoLAは、言語出版物の9.8ドルのドメイン内文と、生成モデルによって生成される3.6ドルのドメイン外文で構成されている。
ドメイン外セットは、言語生成を改善するためのアクセプタビリティの実践的利用を容易にするために作成されます。
本稿では,データ収集プロトコルについて述べるとともに,様々なベースラインアプローチを用いた受容性分類実験のきめ細かな解析を行う。
特に、最も広く使われている言語モデルは、特に形態的および意味的誤りを検出する際に、大きなマージンで人間に置き換わることを示す。
実験のコードであるRuCoLAと、ロシア語の言語モデルの言語能力を評価するための公開リーダーボード(rucola-benchmark.com)をリリースする。
関連論文リスト
- RuBLiMP: Russian Benchmark of Linguistic Minimal Pairs [2.9521383230206966]
本稿では,RuBLiMP (Linguistic Minimal Pairs) のロシア語ベンチマークを紹介する。
RuBLiMPは文法性が異なる45k対の文を含み、形態的、構文的、意味的な現象を分離する。
ロシア語の言語モデルは, 構造的・合意的コントラストに敏感であるが, 構造的関係, 否定, 推移性, 時制の理解を必要とする現象に人間に遅れがあることが判明した。
論文 参考訳(メタデータ) (2024-06-27T14:55:19Z) - JCoLA: Japanese Corpus of Linguistic Acceptability [3.6141428739228902]
JCoLA ( Japanese Corpus of Linguistic Acceptability) は10,020の文に二分的受容性判定を付加した文章である。
JCoLAにおける9種類の日本語モデルの構文的知識を評価する。
論文 参考訳(メタデータ) (2023-09-22T07:35:45Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - OCR Language Models with Custom Vocabularies [5.608846358903994]
本稿では,OCRシステムにおける汎用言語モデルに対して,実行時にドメイン固有の単語ベース言語モデルを効率的に生成し,アタッチするアルゴリズムを提案する。
また,CTCビームサーチデコーダを改良し,将来的な語彙の完成を前提として仮説を競合状態に保たせるようにした。
論文 参考訳(メタデータ) (2023-08-18T16:46:11Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Are Large Language Models Robust Coreference Resolvers? [17.60248310475889]
我々は、コア参照のプロンプトが、現在の教師なしコア参照システムより優れていることを示す。
さらなる調査により、命令調整されたLMが驚くほどドメイン、言語、時間にまたがって一般化されることが判明した。
論文 参考訳(メタデータ) (2023-05-23T19:38:28Z) - CLSE: Corpus of Linguistically Significant Entities [58.29901964387952]
専門家が注釈を付けた言語学的に重要なエンティティ(CLSE)のコーパスをリリースする。
CLSEは74種類のセマンティックタイプをカバーし、航空券売機からビデオゲームまで様々なアプリケーションをサポートする。
言語的に代表されるNLG評価ベンチマークを,フランス語,マラティー語,ロシア語の3言語で作成する。
論文 参考訳(メタデータ) (2022-11-04T12:56:12Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。