論文の概要: Minimal Supervision for Morphological Inflection
- arxiv url: http://arxiv.org/abs/2104.08512v1
- Date: Sat, 17 Apr 2021 11:07:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 12:43:31.179549
- Title: Minimal Supervision for Morphological Inflection
- Title(参考訳): 形態的インフレクションの最小スーパービジョン
- Authors: Omer Goldman and Reut Tsarfaty
- Abstract要約: ラベル付きデータのブートストラップは,5つのラベル付きパラダイムに過ぎず,大量のラベル付きテキストが添付されています。
本手法は, 形態素系における2相配置の異なる規則性を利用する。
本研究では,8言語にまたがるParadigm Cell Filling Problemを試行し,比較的単純な形態を持つ言語では,その直交正則性によって優雅な精度が得られることを示した。
- 参考スコア(独自算出の注目度): 8.532288965425805
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural models for the various flavours of morphological inflection tasks have
proven to be extremely accurate given ample labeled data -- data that may be
slow and costly to obtain. In this work we aim to overcome this annotation
bottleneck by bootstrapping labeled data from a seed as little as {\em five}
labeled paradigms, accompanied by a large bulk of unlabeled text. Our approach
exploits different kinds of regularities in morphological systems in a
two-phased setup, where word tagging based on {\em analogies} is followed by
word pairing based on {\em distances}. We experiment with the Paradigm Cell
Filling Problem over eight typologically different languages, and find that, in
languages with relatively simple morphology, orthographic regularities on their
own allow inflection models to achieve respectable accuracy. Combined
orthographic and semantic regularities alleviate difficulties with particularly
complex morpho-phonological systems. Our results suggest that hand-crafting
many tagged examples might be an unnecessary effort. However, more work is
needed in order to address rarely used forms.
- Abstract(参考訳): モルフォロジー・インフレクション・タスクの様々な風味に対するニューラルモデルは、十分なラベル付きデータを与えられた場合、非常に正確であることが証明されている。
本研究は,ラベル付きデータのブートストラップを,ラベル付けされていない大量のテキストを伴って,ラベル付きパラダイムと同等に設定することで,このアノテーションボトルネックを克服することを目的としている。
提案手法は, 形態素系の多種多様な規則性を二相的に利用し, そこでは, {\em の類似に基づく単語タグ付けに続いて, {\em 距離に基づく単語ペアリングを行う。
本研究では,8言語にまたがるParadigm Cell Filling Problemを試行し,比較的単純な形態を持つ言語では,その直交正則性によって優雅な精度が得られることを示した。
正書法と意味正規性の組み合わせは、特に複雑な形態素-音韻体系の困難を緩和する。
以上の結果から,多くのタグ付き例を手作りすることは不要な作業である可能性が示唆された。
しかし、ほとんど使われない形式に対処するためには、より多くの作業が必要である。
関連論文リスト
- Explaining Datasets in Words: Statistical Models with Natural Language Parameters [66.69456696878842]
本稿では, クラスタリング, 時系列, 分類モデルなど, 自然言語の述語によってパラメータ化される統計モデル群を紹介する。
当社のフレームワークは、ユーザチャット対話の分類、時間の経過とともにどのように進化するかの特徴付け、一方の言語モデルが他方よりも優れているカテゴリを見つけることなど、幅広い問題に適用しています。
論文 参考訳(メタデータ) (2024-09-13T01:40:20Z) - Morphological Inflection with Phonological Features [7.245355976804435]
本研究は,形態素モデルがサブキャラクタの音韻的特徴にアクセスできる様々な方法で得られる性能への影響について検討する。
我々は、浅いグラフ-音素マッピングを持つ言語に対する言語固有の文法を用いて、標準グラフデータから音素データを抽出する。
論文 参考訳(メタデータ) (2023-06-21T21:34:39Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Learning from Partially Overlapping Labels: Image Segmentation under
Annotation Shift [68.6874404805223]
腹部臓器分節の文脈におけるラベルの重複から学ぶためのいくつかの方法を提案する。
半教師付きアプローチと適応的クロスエントロピー損失を組み合わせることで、不均一な注釈付きデータをうまく活用できることが判明した。
論文 参考訳(メタデータ) (2021-07-13T09:22:24Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Modelling Verbal Morphology in Nen [4.6877729174041605]
我々は現在最先端の機械学習モデルを用いて形態的回帰を行い、Nen言語形態をモデル化する。
実験結果から, 動詞型の異なる分布は, 精度の異なるデータ構成に敏感であることがわかった。
また、同期のケーススタディを通じて、トレーニングデータから推測できるパターンの種類についても示す。
論文 参考訳(メタデータ) (2020-11-30T01:22:05Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。