論文の概要: Unsupervised Morphological Paradigm Completion
- arxiv url: http://arxiv.org/abs/2005.00970v2
- Date: Wed, 20 May 2020 22:56:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 06:32:52.738226
- Title: Unsupervised Morphological Paradigm Completion
- Title(参考訳): 教師なし形態素パラダイム完了
- Authors: Huiming Jin, Liwei Cai, Yihui Peng, Chen Xia, Arya D. McCarthy,
Katharina Kann
- Abstract要約: 原文と補題リストのみを与えられたタスクは、全ての屈折形の形態的パラダイム、すなわち、補題を生成することで構成される。
i) EDIT TREE検索, (ii) 補題検索, (iii) パラダイムサイズ発見, (iv) インフレクション生成。
我々のシステムは自明なベースラインを軽快に上回り、一部の言語では最小限の教師付きシステムよりも高い精度が得られる。
- 参考スコア(独自算出の注目度): 26.318483685612765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the task of unsupervised morphological paradigm completion. Given
only raw text and a lemma list, the task consists of generating the
morphological paradigms, i.e., all inflected forms, of the lemmas. From a
natural language processing (NLP) perspective, this is a challenging
unsupervised task, and high-performing systems have the potential to improve
tools for low-resource languages or to assist linguistic annotators. From a
cognitive science perspective, this can shed light on how children acquire
morphological knowledge. We further introduce a system for the task, which
generates morphological paradigms via the following steps: (i) EDIT TREE
retrieval, (ii) additional lemma retrieval, (iii) paradigm size discovery, and
(iv) inflection generation. We perform an evaluation on 14 typologically
diverse languages. Our system outperforms trivial baselines with ease and, for
some languages, even obtains a higher accuracy than minimally supervised
systems.
- Abstract(参考訳): 我々は,教師なし形態的パラダイム補完の課題を提案する。
原文と補題リストのみを与えられたタスクは、全ての屈折形の形態的パラダイム、すなわち、補題を生成することで構成される。
自然言語処理(NLP)の観点からは、これは教師なしの課題であり、ハイパフォーマンスシステムは低リソース言語のためのツールの改善や言語アノテータの支援を行う可能性がある。
認知科学の観点からすると、これは子供が形態学的な知識を得る方法に光を当てることができる。
さらに、以下のステップで形態的パラダイムを生成するタスクのためのシステムを紹介します。
(i)EDIT TREE検索
(ii)補題検索の追加
(iii)パラダイム規模発見、及び
(iv)変曲生成。
14の類型的多様言語について評価を行った。
我々のシステムは自明なベースラインを軽快に上回り、一部の言語では最小限の教師付きシステムよりも高い精度が得られる。
関連論文リスト
- modeLing: A Novel Dataset for Testing Linguistic Reasoning in Language Models [23.105555180223487]
modeLingはLinguistics Olympiadスタイルのパズルの新しいベンチマークで、AIシステムで数発の推論をテストする。
我々は,大規模なオープンソース言語モデルとGPTをベンチマークで評価した。
論文 参考訳(メタデータ) (2024-06-24T18:00:59Z) - Large Language Models for Information Retrieval: A Survey [58.30439850203101]
情報検索は、項ベースの手法から高度なニューラルモデルとの統合へと進化してきた。
近年の研究では、大規模言語モデル(LLM)を活用してIRシステムの改善が試みられている。
LLMとIRシステムの合流点を探索し、クエリリライト、リトリバー、リランカー、リーダーといった重要な側面を含む。
論文 参考訳(メタデータ) (2023-08-14T12:47:22Z) - Tree of Thoughts: Deliberate Problem Solving with Large Language Models [52.31950122881687]
言語モデル推論のための新しいフレームワーク、Tree of Thoughts (ToT)を紹介します。
ToTは、言語モデルを促進するために人気のChain of Thoughtアプローチを一般化する。
実験の結果,ToTは言語モデルの問題解決能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-17T23:16:17Z) - On the Role of Morphological Information for Contextual Lemmatization [7.106986689736827]
6言語における文脈補間器の開発における形態情報の役割について検討する。
バスク語、トルコ語、ロシア語、チェコ語、スペイン語、英語。
実験により、ドメイン外で最高のレマタイザは、単純な UPOS タグを使ったものか、形態学なしで訓練されたものであることが示唆されている。
論文 参考訳(メタデータ) (2023-02-01T12:47:09Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Morphological Processing of Low-Resource Languages: Where We Are and
What's Next [23.7371787793763]
注釈付きリソースが最小か全くない言語に適したアプローチに焦点を合わせます。
我々は、言語の形態を原文だけで理解する、論理的な次の課題に取り組む準備が整っていると論じる。
論文 参考訳(メタデータ) (2022-03-16T19:47:04Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。