論文の概要: DaLAJ - a dataset for linguistic acceptability judgments for Swedish:
Format, baseline, sharing
- arxiv url: http://arxiv.org/abs/2105.06681v1
- Date: Fri, 14 May 2021 07:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:47:23.037145
- Title: DaLAJ - a dataset for linguistic acceptability judgments for Swedish:
Format, baseline, sharing
- Title(参考訳): DaLAJ - スウェーデン語のアクセプティビリティ判断のためのデータセット: フォーマット、ベースライン、共有
- Authors: Elena Volodina, Yousuf Ali Mohammed, Julia Klezl
- Abstract要約: スウェーデン語の言語受容性判定のためのデータセットであるDaLAJ 1.0について紹介する。
DaLAJはSweLLの第2言語学習データに基づいており、様々なレベルの熟練度に関するエッセイで構成されている。
バイナリ分類の基準値から,BERT埋め込みによるDaLAJ 1.0の精度は58%であった。
- 参考スコア(独自算出の注目度): 0.5156484100374058
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present DaLAJ 1.0, a Dataset for Linguistic Acceptability Judgments for
Swedish, comprising 9 596 sentences in its first version; and the initial
experiment using it for the binary classification task. DaLAJ is based on the
SweLL second language learner data, consisting of essays at different levels of
proficiency. To make sure the dataset can be freely available despite the GDPR
regulations, we have sentence-scrambled learner essays and removed part of the
metadata about learners, keeping for each sentence only information about the
mother tongue and the level of the course where the essay has been written. We
use the normalized version of learner language as the basis for the DaLAJ
sentences, and keep only one error per sentence. We repeat the same sentence
for each individual correction tag used in the sentence. For DaLAJ 1.0 we have
used four error categories (out of 35 available in SweLL), all connected to
lexical or word-building choices. Our baseline results for the binary
classification show an accuracy of 58% for DaLAJ 1.0 using BERT embeddings. The
dataset is included in the SwedishGlue (Swe. SuperLim) benchmark. Below, we
describe the format of the dataset, first experiments, our insights and the
motivation for the chosen approach to data sharing.
- Abstract(参考訳): 本稿では,スウェーデン語における言語受容性判断のためのデータセットである dalaj 1.0 について述べる。
DaLAJはSweLLの第2言語学習データに基づいており、様々なレベルの熟練度に関するエッセイで構成されている。
GDPR規則に拘わらず、データセットを自由に利用できるようにするために、文スクランブルした学習者エッセイを持ち、学習者に関するメタデータの一部を削除し、各文は母国語に関する情報とエッセイが書かれたコースのレベルのみを保持する。
本研究では,DALAJ文のベースとして学習言語の正規化バージョンを使用し,文毎の誤りを1つだけ保持する。
文中の個々の補正タグについて、同じ文を繰り返します。
DaLAJ 1.0では、4つのエラーカテゴリ(SweLLで利用可能な35のうち)を使用しました。
バイナリ分類の基準値から,BERT埋め込みによるDaLAJ 1.0の精度は58%であった。
データセットはSwishGlue (Swe)に含まれる。
SuperLim) ベンチマーク。
以下に、データセットのフォーマット、最初の実験、私たちの洞察、選択したデータ共有アプローチのモチベーションについて説明する。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Toward Informal Language Processing: Knowledge of Slang in Large Language Models [16.42982896928428]
我々は,スラングの自動処理に関連するタスクセットの評価を支援するデータセットを構築した。
評価と微調整の両面で,2つのコアアプリケーションにおけるデータセットの有効性を示す。
GPT-4のようなLCMはゼロショット設定で優れた性能を発揮するが、我々のデータセットで微調整された小さなBERTのようなモデルは同等の性能を得る。
論文 参考訳(メタデータ) (2024-04-02T21:50:18Z) - Towards Fine-Grained Information: Identifying the Type and Location of
Translation Errors [80.22825549235556]
既存のアプローチでは、エラーの位置と型を同期的に考慮することはできない。
我々はtextbf の追加と textbfomission エラーを予測するために FG-TED モデルを構築した。
実験により,本モデルではエラータイプと位置の同時同定が可能であり,最先端の結果が得られた。
論文 参考訳(メタデータ) (2023-02-17T16:20:33Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - ASDOT: Any-Shot Data-to-Text Generation with Pretrained Language Models [82.63962107729994]
Any-Shot Data-to-Text (ASDOT)は、多様な設定に柔軟に適用可能な新しいアプローチである。
データ曖昧化と文の融合という2つのステップから構成される。
実験の結果, ASDOT はベースラインよりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2022-10-09T19:17:43Z) - BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate
Speech in Different Social Contexts [1.5483942282713241]
本稿では,Hate Speechをソーシャルコンテキストに含めた大規模ラベル付きデータセットを提案する。
データセットには、オンラインソーシャルネットワークサイトからクロールされた50,200件以上の攻撃的なコメントが含まれている。
実験の結果,147万コメントのみを用いてトレーニングした単語の埋め込みが一貫してHS検出のモデリングを改善することがわかった。
論文 参考訳(メタデータ) (2022-06-01T10:10:15Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - MuLVE, A Multi-Language Vocabulary Evaluation Data Set [2.9005223064604078]
本研究は,語彙カードと実生活ユーザ回答からなるデータセットであるMuLVE(Multi-Language Vocabulary Evaluation Data Set)を導入する。
データセットにはドイツ語、英語、スペイン語、フランス語の語彙に関する質問がターゲット言語として含まれている。
提案したMulVEデータセットを用いて語彙評価の下流タスクにおいて,事前学習したBERT言語モデルを微調整する実験を行った。
論文 参考訳(メタデータ) (2022-01-17T09:02:59Z) - IndoNLI: A Natural Language Inference Dataset for Indonesian [4.707529518839985]
IndoNLIはインドネシア初の人為的NLIデータセットである。
群衆労働者と専門家が注釈を付けた18K近い文対を収集する。
論文 参考訳(メタデータ) (2021-10-27T16:37:13Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。