論文の概要: Corpus and Models for Lemmatisation and POS-tagging of Old French
- arxiv url: http://arxiv.org/abs/2109.11442v1
- Date: Thu, 23 Sep 2021 15:32:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 16:56:19.304856
- Title: Corpus and Models for Lemmatisation and POS-tagging of Old French
- Title(参考訳): 古フランス語の文法化とPOSタグ付けのためのコーパスとモデル
- Authors: Jean-Baptiste Camps, Thibault Cl\'erice, Fr\'ed\'eric Duval, Lucence
Ing, Naomi Kanaoka and Ariane Pinche
- Abstract要約: 古フランス語の補題化とPOSモデルを提供する長期プロジェクトの現状について述べる。
我々は、ニューラルタグと専用コーパスの進歩的構成の助けを借りて、古フランス語の補題化とPOSモデルを提供する難問をどう解決したかを述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Old French is a typical example of an under-resourced historic languages,
that furtherly displays animportant amount of linguistic variation. In this
paper, we present the current results of a long going project (2015-...) and
describe how we broached the difficult question of providing lemmatisation
andPOS models for Old French with the help of neural taggers and the
progressive constitution of dedicated corpora.
- Abstract(参考訳): 古フランス語は、未資源の歴史的言語の典型例であり、さらに重要な量の言語変化を示す。
本稿では, 長期化プロジェクト (2015-...) の現状について述べるとともに, ニューラルネットワークタガーと専用コーパスのプログレッシブな構成を用いて, 古フランス語の補間と提案モデルを提供することの難しさについて述べる。
関連論文リスト
- Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Masked Part-Of-Speech Model: Does Modeling Long Context Help
Unsupervised POS-tagging? [94.68962249604749]
フレキシブルな依存性モデリングを容易にするために,MPoSM(Masked Part-of-Speech Model)を提案する。
MPoSMは任意のタグ依存をモデル化し、マスクされたPOS再構成の目的を通じてPOS誘導を行うことができる。
英語のPenn WSJデータセットと10の多様な言語を含むユニバーサルツリーバンクの競合的な結果を得た。
論文 参考訳(メタデータ) (2022-06-30T01:43:05Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - Cedille: A large autoregressive French language model [0.21756081703276003]
私たちはCedilleを紹介します。Cedilleは大規模なオープンソースの自動回帰言語モデルで、特にフランス語のために訓練されています。
以上の結果から,Cedille は既存のフランス語モデルより優れており,GPT-3 と競合する。
論文 参考訳(メタデータ) (2022-02-07T17:40:43Z) - PAGnol: An Extra-Large French Generative Model [53.40189314359048]
本稿では,フランスのGPTモデルのコレクションであるPAGnolを紹介する。
スケーリング法則を用いて,CamemBERTと同じ計算予算でPAGnol-XLを効率的に訓練する。
論文 参考訳(メタデータ) (2021-10-16T11:44:23Z) - On Language Models for Creoles [8.577162764242845]
ナイジェリアのピジン・イングリッシュやハイチのクレオールといったクレオール語は、NLPの文献でほとんど無視されている。
文法的特徴と語彙的特徴がクレオールに伝達されるのは複雑なプロセスである。
クレオールは概して安定しているが、一部の特徴の優位性は特定の人口統計学や一部の言語学的状況においてより強くなる可能性がある。
論文 参考訳(メタデータ) (2021-09-13T15:51:15Z) - Standardizing linguistic data: method and tools for annotating
(pre-orthographic) French [0.0]
本稿では、方法論的(アノテーションの原則を提案する)と技術的(必要なトレーニングデータと関連するモデルを作成する)の両方について、(初期)現代フランス語(16-18世紀)の言語タグの作成について述べる。
我々は可能な限り、現代、特に中世フランス語の既存の標準を考慮に入れている。
論文 参考訳(メタデータ) (2020-11-22T17:39:43Z) - Corpus and Models for Lemmatisation and POS-tagging of Classical French
Theatre [0.0]
本稿では,古典フランス文学のための注釈付きコーパスとトレーニングモデルの構築過程について述べる。
もともとは、カフィエロとキャンプで提示された幾何学的分析の予備的な段階として開発された。
ニューラルネットワークとCRFタグをベースとした最近のレムマティザの使用により、ドメイン内テストにおける現在の最先端技術を超えた精度を達成することができる。
論文 参考訳(メタデータ) (2020-05-15T12:47:54Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。