論文の概要: NorDiaChange: Diachronic Semantic Change Dataset for Norwegian
- arxiv url: http://arxiv.org/abs/2201.05123v1
- Date: Thu, 13 Jan 2022 18:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 17:33:34.131030
- Title: NorDiaChange: Diachronic Semantic Change Dataset for Norwegian
- Title(参考訳): nordiachange: ノルウェーのセマンティクス変化データセット
- Authors: Andrey Kutuzov, Samia Touileb, Petter M{\ae}hlum, Tita Ranveig Enstad,
Alexandra Wittemann
- Abstract要約: NorDiaChangeはノルウェーにおける最初のダイアクロニックなセマンティックチェンジデータセットである。
ノルウェーの約80の名詞が、時間とともに格付けされた意味変化で注釈付けされている。
- 参考スコア(独自算出の注目度): 63.65426535861836
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe NorDiaChange: the first diachronic semantic change dataset for
Norwegian. NorDiaChange comprises two novel subsets, covering about 80
Norwegian nouns manually annotated with graded semantic change over time. Both
datasets follow the same annotation procedure and can be used interchangeably
as train and test splits for each other. NorDiaChange covers the time periods
related to pre- and post-war events, oil and gas discovery in Norway, and
technological developments. The annotation was done using the DURel framework
and two large historical Norwegian corpora. NorDiaChange is published in full
under a permissive license, complete with raw annotation data and inferred
diachronic word usage graphs (DWUGs).
- Abstract(参考訳): NorDiaChangeはノルウェーにおける最初のダイアクロニック意味変化データセットである。
NorDiaChangeは2つの新しいサブセットから構成されており、ノルウェーの約80の名詞が時間とともに段階的な意味変化を伴って手動で注釈付けされている。
両方のデータセットは同じアノテーション手順に従っており、相互にトレーナーとテストスプリットとして使用できる。
NorDiaChangeは戦前の出来事や戦後の出来事、ノルウェーにおける石油とガスの発見、技術開発に関連する期間をカバーしている。
このアノテーションはDURELフレームワークと2つの大きなノルウェーの歴史的コーパスを用いて行われた。
NorDiaChangeは、生のアノテーションデータと推論ダイアロン語使用グラフ(DWUG)を備えたパーミッシブライセンスで全文公開されている。
関連論文リスト
- NLEBench+NorGLM: A Comprehensive Empirical Analysis and Benchmark Dataset for Generative Language Models in Norwegian [4.062031248854444]
ノルウェーの人口はわずか500万人で、NLPのタスクで最も印象的なブレークスルーの中では、表現力に乏しい。
このギャップを埋めるために、既存のノルウェーデータセットをコンパイルし、4つのノルウェーオープン言語モデルを事前訓練しました。
GPT-3.5はノルウェーの文脈を理解する能力に限界があることがわかった。
論文 参考訳(メタデータ) (2023-12-03T08:09:45Z) - NoCoLA: The Norwegian Corpus of Linguistic Acceptability [2.538209532048867]
言語モデルを評価するために,ノルウェーの2つの新しいデータセットを提案する。
NoCoLA_classは教師付きバイナリ分類タスクであり、目的は許容可能な文と許容できない文を区別することである。
NoCoLA_zeroは、完全にゼロショットで言語モデルの文法的判断を評価するための純粋に診断タスクである。
論文 参考訳(メタデータ) (2023-06-13T14:11:19Z) - Aligning the Norwegian UD Treebank with Entity and Coreference
Information [0.0]
本稿では,ノルウェーの2つの書体であるボクマールとニノルスクについて,ユニバーサル依存(UD)ツリーバンクを基盤としたエンティティとコアのアノテートデータの統合について述べる。
調整および変換されたコーパスはノルウェー名称エンティティ(NorNE)とノルウェーアナフォラ解決コーパス(NARC)である。
論文 参考訳(メタデータ) (2023-05-22T22:44:53Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Compositional Temporal Grounding with Structured Variational Cross-Graph
Correspondence Learning [92.07643510310766]
ビデオの時間的接地は、あるクエリ文に意味的に対応する1つのターゲットビデオセグメントをローカライズすることを目的としている。
新たに構成時間グラウンドタスクを導入し,2つの新しいデータセット分割を構築した。
出現した単語の新たな組み合わせによるクエリの一般化に失敗したことを実証的に見出した。
本稿では,ビデオと言語を複数の階層構造に明示的に分解する多変分グラフ推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-24T12:55:23Z) - Three-part diachronic semantic change dataset for Russian [4.7566046630595755]
我々は、ロシア語のRuShiftEvalに対して、手動で注釈付き語彙意味変化データセットを提示する。
その斬新さは、3つの期間にわたるダイアクロニックなセマンティックシフトにアノテートされた1組の標的単語によって保証される。
論文 参考訳(メタデータ) (2021-06-15T17:12:25Z) - NorDial: A Preliminary Corpus of Written Norwegian Dialect Use [4.211128681972148]
ツイートの小さなコーパスを収集し、手動でBokmaal、Nynorsk、方言、またはミックスとしてアノテートします。
本研究は,最先端モデルを用いた予備実験と,このコーパスを将来拡張するためのデータの分析を行う。
論文 参考訳(メタデータ) (2021-04-11T10:56:53Z) - Local Additivity Based Data Augmentation for Semi-supervised NER [59.90773003737093]
名前付きエンティティ認識(NER)は、深層言語理解の第1段階の1つである。
現在のNERモデルは、人間の注釈付きデータに大きく依存している。
半教師付きNERのための局所付加性に基づくデータ拡張法(LADA)を提案する。
論文 参考訳(メタデータ) (2020-10-04T20:46:26Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z) - e-SNLI-VE: Corrected Visual-Textual Entailment with Natural Language
Explanations [87.71914254873857]
SNLI-VEのエラー率が最も高いクラスを補正するためのデータ収集手法を提案する。
第3に,人間による自然言語の説明をSNLI-VEに追加するe-SNLI-VEを紹介する。
トレーニング時にこれらの説明から学習するモデルをトレーニングし、テスト時にそのような説明を出力します。
論文 参考訳(メタデータ) (2020-04-07T23:12:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。