論文の概要: NorDial: A Preliminary Corpus of Written Norwegian Dialect Use
- arxiv url: http://arxiv.org/abs/2104.04989v1
- Date: Sun, 11 Apr 2021 10:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 10:09:43.563670
- Title: NorDial: A Preliminary Corpus of Written Norwegian Dialect Use
- Title(参考訳): NorDial: ノルウェー語で書かれた単語の予備コーパス
- Authors: Jeremy Barnes and Petter M{\ae}hlum and Samia Touileb
- Abstract要約: ツイートの小さなコーパスを収集し、手動でBokmaal、Nynorsk、方言、またはミックスとしてアノテートします。
本研究は,最先端モデルを用いた予備実験と,このコーパスを将来拡張するためのデータの分析を行う。
- 参考スコア(独自算出の注目度): 4.211128681972148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Norway has a large amount of dialectal variation, as well as a general
tolerance to its use in the public sphere. There are, however, few available
resources to study this variation and its change over time and in more informal
areas, \eg on social media. In this paper, we propose a first step to creating
a corpus of dialectal variation of written Norwegian. We collect a small corpus
of tweets and manually annotate them as Bokm{\aa}l, Nynorsk, any dialect, or a
mix. We further perform preliminary experiments with state-of-the-art models,
as well as an analysis of the data to expand this corpus in the future.
Finally, we make the annotations and models available for future work.
- Abstract(参考訳): ノルウェーには方言のバリエーションが豊富で、公共の場での使用に対する一般的な寛容性がある。
しかし、このバリエーションと、時間とともに、そしてより非公式な領域で変化を研究するための利用可能なリソースは、ほとんどない。
本稿では,ノルウェー語表記の方言変化のコーパスを作成するための第一歩を提案する。
ツイートの小さなコーパスを収集し、それをbokm{\aa}l、nynorsk、どんな方言、あるいはミックスとして手動で注釈付けします。
我々はさらに、最先端モデルによる予備実験を行い、将来このコーパスを拡張するためのデータの解析を行う。
最後に、アノテーションとモデルを将来の作業で利用できるようにします。
関連論文リスト
- Boosting Norwegian Automatic Speech Recognition [0.0]
本稿では,ノルウェーの2つの公用語であるボクマール語とニノルスク語に対する自動音声認識(ASR)モデルについて述べる。
複数のノルウェー語音声データセットにおける様々な大きさのモデルと事前学習アプローチの性能を比較した。
我々は,ノルウェー議会音声コーパス (NPSC) の言語誤り率 (WER) を17.10%から7.60%に改善し,ボクマールでは5.81%,ニノルスクでは11.54%とした。
論文 参考訳(メタデータ) (2023-07-04T12:05:15Z) - NoCoLA: The Norwegian Corpus of Linguistic Acceptability [2.538209532048867]
言語モデルを評価するために,ノルウェーの2つの新しいデータセットを提案する。
NoCoLA_classは教師付きバイナリ分類タスクであり、目的は許容可能な文と許容できない文を区別することである。
NoCoLA_zeroは、完全にゼロショットで言語モデルの文法的判断を評価するための純粋に診断タスクである。
論文 参考訳(メタデータ) (2023-06-13T14:11:19Z) - A Corpus for Sentence-level Subjectivity Detection on English News
Articles [52.58681161666199]
文レベルで主観性検出のための新しいコーパスを提案する。
我々は,タスクのための新しいアノテーションガイドラインを開発し,それらを英語で新しいコーパスの作成に適用する。
この新たなリソースは、英語および他の言語で主観性検出のためのモデルを開発するための道を開く。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - Annotating Norwegian Language Varieties on Twitter for Part-of-Speech [14.031720101413557]
POSタグを付加したノルウェーのTwitterデータセットを提案する。
このデータセットに対して評価すると,UD(Universal Dependency)データに基づいてトレーニングしたモデルの性能が低下することを示す。
また、方言のツイートのパフォーマンスは、一部のモデルの標準書に匹敵するものであることもわかっています。
論文 参考訳(メタデータ) (2022-10-12T12:53:30Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - NorDiaChange: Diachronic Semantic Change Dataset for Norwegian [63.65426535861836]
NorDiaChangeはノルウェーにおける最初のダイアクロニックなセマンティックチェンジデータセットである。
ノルウェーの約80の名詞が、時間とともに格付けされた意味変化で注釈付けされている。
論文 参考訳(メタデータ) (2022-01-13T18:27:33Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。
トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文 参考訳(メタデータ) (2021-04-13T23:18:04Z) - Learning language variations in news corpora through differential
embeddings [0.0]
中心的な単語表現とスライスに依存したコントリビューションを持つモデルでは,異なるコーパスから単語埋め込みを同時に学習できることを示す。
各コーパスの年次スライスにおける時間的ダイナミクスと、米国英語と英国英語の言語変化をキュレートしたマルチソースコーパスで捉えることができることを示す。
論文 参考訳(メタデータ) (2020-11-13T14:50:08Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。