論文の概要: NorDial: A Preliminary Corpus of Written Norwegian Dialect Use
- arxiv url: http://arxiv.org/abs/2104.04989v1
- Date: Sun, 11 Apr 2021 10:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 10:09:43.563670
- Title: NorDial: A Preliminary Corpus of Written Norwegian Dialect Use
- Title(参考訳): NorDial: ノルウェー語で書かれた単語の予備コーパス
- Authors: Jeremy Barnes and Petter M{\ae}hlum and Samia Touileb
- Abstract要約: ツイートの小さなコーパスを収集し、手動でBokmaal、Nynorsk、方言、またはミックスとしてアノテートします。
本研究は,最先端モデルを用いた予備実験と,このコーパスを将来拡張するためのデータの分析を行う。
- 参考スコア(独自算出の注目度): 4.211128681972148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Norway has a large amount of dialectal variation, as well as a general
tolerance to its use in the public sphere. There are, however, few available
resources to study this variation and its change over time and in more informal
areas, \eg on social media. In this paper, we propose a first step to creating
a corpus of dialectal variation of written Norwegian. We collect a small corpus
of tweets and manually annotate them as Bokm{\aa}l, Nynorsk, any dialect, or a
mix. We further perform preliminary experiments with state-of-the-art models,
as well as an analysis of the data to expand this corpus in the future.
Finally, we make the annotations and models available for future work.
- Abstract(参考訳): ノルウェーには方言のバリエーションが豊富で、公共の場での使用に対する一般的な寛容性がある。
しかし、このバリエーションと、時間とともに、そしてより非公式な領域で変化を研究するための利用可能なリソースは、ほとんどない。
本稿では,ノルウェー語表記の方言変化のコーパスを作成するための第一歩を提案する。
ツイートの小さなコーパスを収集し、それをbokm{\aa}l、nynorsk、どんな方言、あるいはミックスとして手動で注釈付けします。
我々はさらに、最先端モデルによる予備実験を行い、将来このコーパスを拡張するためのデータの解析を行う。
最後に、アノテーションとモデルを将来の作業で利用できるようにします。
関連論文リスト
- Reddit is all you need: Authorship profiling for Romanian [49.1574468325115]
著者プロファイリング(英: Authorship profiling)とは、著者の著作に基づいて著者の特徴を特定する過程である。
本稿では,ルーマニア語における短いテキストのコーパスについて紹介する。
論文 参考訳(メタデータ) (2024-10-13T16:27:31Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Boosting Norwegian Automatic Speech Recognition [0.0]
本稿では,ノルウェーの2つの公用語であるボクマール語とニノルスク語に対する自動音声認識(ASR)モデルについて述べる。
複数のノルウェー語音声データセットにおける様々な大きさのモデルと事前学習アプローチの性能を比較した。
我々は,ノルウェー議会音声コーパス (NPSC) の言語誤り率 (WER) を17.10%から7.60%に改善し,ボクマールでは5.81%,ニノルスクでは11.54%とした。
論文 参考訳(メタデータ) (2023-07-04T12:05:15Z) - NoCoLA: The Norwegian Corpus of Linguistic Acceptability [2.538209532048867]
言語モデルを評価するために,ノルウェーの2つの新しいデータセットを提案する。
NoCoLA_classは教師付きバイナリ分類タスクであり、目的は許容可能な文と許容できない文を区別することである。
NoCoLA_zeroは、完全にゼロショットで言語モデルの文法的判断を評価するための純粋に診断タスクである。
論文 参考訳(メタデータ) (2023-06-13T14:11:19Z) - Annotating Norwegian Language Varieties on Twitter for Part-of-Speech [14.031720101413557]
POSタグを付加したノルウェーのTwitterデータセットを提案する。
このデータセットに対して評価すると,UD(Universal Dependency)データに基づいてトレーニングしたモデルの性能が低下することを示す。
また、方言のツイートのパフォーマンスは、一部のモデルの標準書に匹敵するものであることもわかっています。
論文 参考訳(メタデータ) (2022-10-12T12:53:30Z) - NorDiaChange: Diachronic Semantic Change Dataset for Norwegian [63.65426535861836]
NorDiaChangeはノルウェーにおける最初のダイアクロニックなセマンティックチェンジデータセットである。
ノルウェーの約80の名詞が、時間とともに格付けされた意味変化で注釈付けされている。
論文 参考訳(メタデータ) (2022-01-13T18:27:33Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Large-Scale Contextualised Language Modelling for Norwegian [7.5722195869569]
本稿では,elmo と bert の両フレームワークに基づく,ノルウェー初の大規模単言語モデルを提案する。
トレーニングプロセスの詳細に加えて,ノルウェーにおけるNLPタスクのスイートに対して,コントラスト的なベンチマーク結果を示す。
論文 参考訳(メタデータ) (2021-04-13T23:18:04Z) - Learning language variations in news corpora through differential
embeddings [0.0]
中心的な単語表現とスライスに依存したコントリビューションを持つモデルでは,異なるコーパスから単語埋め込みを同時に学習できることを示す。
各コーパスの年次スライスにおける時間的ダイナミクスと、米国英語と英国英語の言語変化をキュレートしたマルチソースコーパスで捉えることができることを示す。
論文 参考訳(メタデータ) (2020-11-13T14:50:08Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。