論文の概要: Exploiting Cross-Dialectal Gold Syntax for Low-Resource Historical
Languages: Towards a Generic Parser for Pre-Modern Slavic
- arxiv url: http://arxiv.org/abs/2011.06467v1
- Date: Thu, 12 Nov 2020 16:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 07:09:05.228032
- Title: Exploiting Cross-Dialectal Gold Syntax for Low-Resource Historical
Languages: Towards a Generic Parser for Pre-Modern Slavic
- Title(参考訳): 低資源歴史言語のためのクロスディレクタルゴールド構文の発明--前近代スラヴ語のジェネリックパーサーを目指して
- Authors: Nilo Pedrazzini (University of Oxford)
- Abstract要約: 近代スラヴの品種は、低資源の歴史的言語として扱われる。
ツリーバンク間のデータは、データの不足を克服するために利用される可能性がある。
オールド・チャーチ・スラヴ語(OCS)とオールド・イースト・スラヴ語(OES)の両方で、新しい芸術の状況が得られている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper explores the possibility of improving the performance of
specialized parsers for pre-modern Slavic by training them on data from
different related varieties. Because of their linguistic heterogeneity,
pre-modern Slavic varieties are treated as low-resource historical languages,
whereby cross-dialectal treebank data may be exploited to overcome data
scarcity and attempt the training of a variety-agnostic parser. Previous
experiments on early Slavic dependency parsing are discussed, particularly with
regard to their ability to tackle different orthographic, regional and
stylistic features. A generic pre-modern Slavic parser and two specialized
parsers -- one for East Slavic and one for South Slavic -- are trained using
jPTDP (Nguyen & Verspoor 2018), a neural network model for joint part-of-speech
(POS) tagging and dependency parsing which had shown promising results on a
number of Universal Dependency (UD) treebanks, including Old Church Slavonic
(OCS). With these experiments, a new state of the art is obtained for both OCS
(83.79\% unlabelled attachment score (UAS) and 78.43\% labelled attachement
score (LAS)) and Old East Slavic (OES) (85.7\% UAS and 80.16\% LAS).
- Abstract(参考訳): 本稿では,異なる関連品種のデータを学習することで,先進スラヴ語の特殊パーサの性能向上の可能性を検討する。
言語的多様性のため、前近代スラヴの変種は低資源の歴史的言語として扱われ、クロスダイアレクティブなツリーバンクデータはデータの不足を克服し、多種多様なパーサーの訓練を試みるために利用される。
初期のスラヴ依存構文解析に関する以前の実験は、特に、異なる正書法、地域的、様式的特徴に取り組む能力について論じられた。
jptdp(nguyen & verspoor 2018)は、ジョイント・オブ・スパイチ(pos)のタグ付けと依存性解析のためのニューラルネットワークモデルで、古い教会スラヴニック(英語版)(ocs)を含む多くの共通依存性(ud)ツリーバンクで有望な結果を示した。
これらの実験により、OCS(83.79\%未ラベルアタッチメントスコア(UAS)と78.43\%ラベル付きアタッチメントスコア(LAS))とオールド・イースト・スラヴ(OES)(85.7\%UASおよび80.16\%LAS)の両者に対して、新たな技術状態が得られる。
関連論文リスト
- Leveraging Transformer-Based Models for Predicting Inflection Classes of Words in an Endangered Sami Language [1.788784870849724]
本論文では,Skolt Samiの語彙的特徴と形態的特徴を分類するために,トランスフォーマーモデルを用いた学習手法を提案する。
この研究の背後にある動機は、スコルト・サーミのような少数言語のための言語保存と再生活動を支援することである。
本モデルでは,POS分類では平均重み付きF1スコアが1.00であり,屈折分類では0.81である。
論文 参考訳(メタデータ) (2024-11-04T19:41:16Z) - Data-Augmentation-Based Dialectal Adaptation for LLMs [26.72394783468532]
本稿では, GMUNLPによるVarDial 2024におけるDialect-Copa共有タスクへの参加について述べる。
この課題は、南スラヴ語のマイクロディレクト上での大規模言語モデル(LLM)の常識推論能力を評価することに焦点を当てている。
本稿では,異なるタイプの言語モデルの強みを組み合わせ,データ拡張技術を活用してタスク性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T19:15:32Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Lightweight Adaptation of Neural Language Models via Subspace Embedding [3.2634122554914002]
本稿では,学習前の言語モデルのメモリフットプリントを最大4%の精度で削減する,新しいコンパクトな埋め込み構造を提案する。
サブスペース埋め込みは、XNLIとGLUEベンチマークスイートの言語モデルのオリジナルの埋め込みと比較して99.8%を超える圧縮率を達成する。
論文 参考訳(メタデータ) (2023-08-16T22:16:00Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Isomorphic Cross-lingual Embeddings for Low-Resource Languages [1.5076964620370268]
CLWE(Cross-Lingual Word Embeddings)は、高リソース設定から学習した言語情報を低リソースに転送するための重要なコンポーネントである。
我々は、関連の高い高リソース言語を共同で活用することで、低リソース対に対して、アイソメトリを仮定せずにCLWEを学習するフレームワークを導入する。
両言語レキシコン誘導(BLI)と固有値類似度(Eigenvalue similarity)によって測定された同型性の品質と程度において,現在の手法よりも一貫した利得を示す。
論文 参考訳(メタデータ) (2022-03-28T10:39:07Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Binary and Multitask Classification Model for Dutch Anaphora Resolution:
Die/Dat Prediction [18.309099448064273]
オランダ語の代名詞「ディー」と「ダット」の正しい用法は、オランダ語の母語話者と非母語話者の双方にとって不安定なブロックである。
本研究は,オランダ語実証および相対代名詞分解のための最初のニューラルネットワークモデルを構築した。
論文 参考訳(メタデータ) (2020-01-09T12:34:01Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。