論文の概要: Morphological Inflection with Phonological Features
- arxiv url: http://arxiv.org/abs/2306.12581v1
- Date: Wed, 21 Jun 2023 21:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 16:05:18.848841
- Title: Morphological Inflection with Phonological Features
- Title(参考訳): 形態変化と音韻的特徴
- Authors: David Guriel, Omer Goldman, Reut Tsarfaty
- Abstract要約: 本研究は,形態素モデルがサブキャラクタの音韻的特徴にアクセスできる様々な方法で得られる性能への影響について検討する。
我々は、浅いグラフ-音素マッピングを持つ言語に対する言語固有の文法を用いて、標準グラフデータから音素データを抽出する。
- 参考スコア(独自算出の注目度): 7.245355976804435
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent years have brought great advances into solving morphological tasks,
mostly due to powerful neural models applied to various tasks as (re)inflection
and analysis. Yet, such morphological tasks cannot be considered solved,
especially when little training data is available or when generalizing to
previously unseen lemmas. This work explores effects on performance obtained
through various ways in which morphological models get access to subcharacter
phonological features that are the targets of morphological processes. We
design two methods to achieve this goal: one that leaves models as is but
manipulates the data to include features instead of characters, and another
that manipulates models to take phonological features into account when
building representations for phonemes. We elicit phonemic data from standard
graphemic data using language-specific grammars for languages with shallow
grapheme-to-phoneme mapping, and we experiment with two reinflection models
over eight languages. Our results show that our methods yield comparable
results to the grapheme-based baseline overall, with minor improvements in some
of the languages. All in all, we conclude that patterns in character
distributions are likely to allow models to infer the underlying phonological
characteristics, even when phonemes are not explicitly represented.
- Abstract(参考訳): 近年では、様々なタスクに適用される強力なニューラルモデル(反射と解析)によって、形態的タスクの解決に大きな進歩がもたらされている。
しかし、そのような形態的タスクは、特にトレーニングデータが少ない場合や、以前は見つからなかった補題に一般化する場合は、解決できない。
本研究は形態素モデルが形態素過程の標的となるサブキャラクタ音韻的特徴にアクセスできる様々な方法で得られる性能への影響を探求する。
この目的を達成するための2つの手法を設計する。1つはモデルをそのまま残しながら文字の代わりに特徴を含むようにデータを操作し、もう1つは音素表現を構築する際に音韻的特徴を考慮したモデルを操作する。
浅いグラフ-音素マッピングを持つ言語に対する言語固有の文法を用いた標準グラフデータから音素データを抽出し、8言語にまたがる2つの再帰モデル実験を行った。
以上の結果から,本手法はgraphemeベースのベースラインと比較し,いくつかの言語に若干改良を加えた結果を得た。
総じて、文字分布のパターンは、音素が明示的に表現されていない場合でも、モデルが基礎となる音韻特性を推測できる可能性が高いと結論付けている。
関連論文リスト
- Small Language Models Like Small Vocabularies: Probing the Linguistic Abilities of Grapheme- and Phoneme-Based Baby Llamas [7.585433383340306]
我々は,Llamaアーキテクチャに基づく小型モデルは,標準構文および新しい語彙/音声のベンチマークにおいて,強力な言語性能が得られることを示す。
本研究は,言語習得と処理の計算研究に適する言語学的に妥当な言語モデルを作成するための,有望な方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-02T12:36:08Z) - UzMorphAnalyser: A Morphological Analysis Model for the Uzbek Language Using Inflectional Endings [0.0]
接尾辞は、単語に付加的な意味と文法的機能を加えることによって、単語の形態解析において重要な役割を果たす。
本稿では,ユーズベク語の形態解析のモデル化について述べる。
提案されたモデルに基づく開発ツールは、WebベースのアプリケーションとオープンソースのPythonライブラリとして利用できる。
論文 参考訳(メタデータ) (2024-05-23T05:06:55Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - Minimal Supervision for Morphological Inflection [8.532288965425805]
ラベル付きデータのブートストラップは,5つのラベル付きパラダイムに過ぎず,大量のラベル付きテキストが添付されています。
本手法は, 形態素系における2相配置の異なる規則性を利用する。
本研究では,8言語にまたがるParadigm Cell Filling Problemを試行し,比較的単純な形態を持つ言語では,その直交正則性によって優雅な精度が得られることを示した。
論文 参考訳(メタデータ) (2021-04-17T11:07:36Z) - Morphological Disambiguation from Stemming Data [1.2183405753834562]
形態学的に豊かな言語であるKinyarwandaは、現在、自動形態素解析のためのツールを欠いている。
我々は、クラウドソーシングを通じて収集された新しいスリーミングデータセットから、Kinyarwandaの動詞形を形態的に曖昧にすることを学ぶ。
本実験により, 茎の屈折特性と形態素関連規則が, 曖昧さの最も識別的な特徴であることが判明した。
論文 参考訳(メタデータ) (2020-11-11T01:44:09Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。