論文の概要: Neural Morphology Dataset and Models for Multiple Languages, from the
Large to the Endangered
- arxiv url: http://arxiv.org/abs/2105.12428v1
- Date: Wed, 26 May 2021 09:35:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-27 20:50:48.955388
- Title: Neural Morphology Dataset and Models for Multiple Languages, from the
Large to the Endangered
- Title(参考訳): 大規模言語から絶滅危惧言語へのニューラル・モルフォロジー・データセットと多言語モデル
- Authors: Mika H\"am\"al\"ainen, Niko Partanen, Jack Rueter, Khalid Alnajjar
- Abstract要約: 我々は、形態学的に豊かな言語に対する形態解析、生成、補題化のためのニューラルネットワークを訓練する。
本稿では,22言語を対象に,FSTからかなりの量のトレーニングデータを自動抽出する手法を提案する。
- 参考スコア(独自算出の注目度): 1.0896567381206714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We train neural models for morphological analysis, generation and
lemmatization for morphologically rich languages. We present a method for
automatically extracting substantially large amount of training data from FSTs
for 22 languages, out of which 17 are endangered. The neural models follow the
same tagset as the FSTs in order to make it possible to use them as fallback
systems together with the FSTs. The source code, models and datasets have been
released on Zenodo.
- Abstract(参考訳): 形態素豊かな言語の形態素解析,生成,補間のためのニューラルモデルを訓練する。
本稿では,22言語を対象に,FSTからかなりの量のトレーニングデータを自動抽出する手法を提案する。
ニューラルネットワークモデルはFSTと同じタグセットに従っており、FSTと一緒にフォールバックシステムとして使用できる。
ソースコード、モデル、データセットがZenodoでリリースされた。
関連論文リスト
- In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - The Curse of Recursion: Training on Generated Data Makes Models Forget [70.02793975243212]
大規模言語モデル(LLM)が存続し、オンラインテキストと画像のエコシステム全体に劇的な変化をもたらすだろう。
トレーニングにおけるモデル生成コンテンツの使用は、元のコンテンツ分布の尾部が消える結果のモデルに不可逆的な欠陥を引き起こす。
論文 参考訳(メタデータ) (2023-05-27T15:10:41Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - Dependency-based Mixture Language Models [53.152011258252315]
依存性に基づく混合言語モデルを紹介する。
より詳しくは、依存関係モデリングの新たな目的により、まずニューラルネットワークモデルを訓練する。
次に、前回の依存性モデリング確率分布と自己意図を混合することにより、次の確率を定式化する。
論文 参考訳(メタデータ) (2022-03-19T06:28:30Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z) - Low-Resource Language Modelling of South African Languages [6.805575417034369]
南アフリカの低資源言語におけるボカブラリ言語モデルの性能を評価する。
本研究では,n-gramモデル,feedforwardニューラルネットワーク,recurrent neural network (rnn),transformerの異種を小規模データセット上で評価する。
全体的に、よく規則化されたRNNは、2つのisiZuluと1つのSepediデータセットで最高のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T21:27:27Z) - Bootstrapping Techniques for Polysynthetic Morphological Analysis [9.655349059913888]
ニューラルモルフォロジーアナライザをブートストラップするための言語的インフォームドアプローチを提案する。
有限状態トランスデューサからデータを生成し,エンコーダデコーダモデルを訓練する。
学習データに欠落する言語構造を「ハロシン化」し、Zipf分布から再サンプリングすることで、形態素のより自然な分布をシミュレートすることでモデルを改善する。
論文 参考訳(メタデータ) (2020-05-03T00:35:19Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。