論文の概要: Morphology Without Borders: Clause-Level Morphological Annotation
- arxiv url: http://arxiv.org/abs/2202.12832v1
- Date: Fri, 25 Feb 2022 17:20:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 15:01:01.359748
- Title: Morphology Without Borders: Clause-Level Morphological Annotation
- Title(参考訳): 境界のない形態:クロースレベル形態素アノテーション
- Authors: Omer Goldman and Reut Tsarfaty
- Abstract要約: 形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
- 参考スコア(独自算出の注目度): 8.559428282730021
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Morphological tasks use large multi-lingual datasets that organize words into
inflection tables, which then serve as training and evaluation data for various
tasks. However, a closer inspection of these data reveals profound
cross-linguistic inconsistencies, that arise from the lack of a clear
linguistic and operational definition of what is a word, and that severely
impair the universality of the derived tasks. To overcome this deficiency, we
propose to view morphology as a clause-level phenomenon, rather than
word-level. It is anchored in a fixed yet inclusive set of features homogeneous
across languages, that encapsulates all functions realized in a saturated
clause. We deliver MightyMorph, a novel dataset for clause-level morphology
covering 4 typologically-different languages: English, German, Turkish and
Hebrew. We use this dataset to derive 3 clause-level morphological tasks:
inflection, reinflection and analysis. Our experiments show that the
clause-level tasks are substantially harder than the respective word-level
tasks, while having comparable complexity across languages. Furthermore,
redefining morphology to the clause-level provides a neat interface with
contextualized language models (LMs) and can be used to probe LMs capacity to
encode complex morphology. Taken together, this work opens up new horizons in
the study of computational morphology, leaving ample space for studying neural
morphological modeling cross-linguistically.
- Abstract(参考訳): 形態素的タスクは、単語を反転テーブルに整理する大きな多言語データセットを使用し、様々なタスクのトレーニングと評価データとして機能する。
しかし、これらのデータを綿密に検査すると、単語の明確な言語的および操作的定義が欠如し、派生したタスクの普遍性を著しく損なうという、言語横断的な矛盾が明らかになる。
この不足を克服するために,形態素を単語レベルではなく節レベルの現象と考えることを提案する。
これは、飽和節で実現されたすべての関数をカプセル化する言語間で均質な特徴の固定的かつ包括的なセットに固定されている。
mightymorphは、英語、ドイツ語、トルコ語、ヘブライ語の4つのタイプ論的に異なる言語をカバーする、節レベルの形態に関する新しいデータセットです。
我々は,このデータセットを用いて3つの節レベルの形態的タスク(反射,反射,解析)を導出する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
さらに、節レベルへのモルフォロジーの再定義は、文脈化言語モデル(lms)との巧妙なインターフェースを提供し、複雑な形態素をエンコードするlms能力を調べるのに使うことができる。
この研究は、計算形態学の研究における新たな地平線を開き、神経形態モデリングをクロス言語で研究するための余地を残している。
関連論文リスト
- A Morphology-Based Investigation of Positional Encodings [46.667985003225496]
形態と語順は密接に結びついており、後者は位置符号化によってトランスフォーマーモデルに組み込まれている。
言語の形態的複雑さと、事前訓練された言語モデルにおける位置エンコーディングの利用との間には相関があるのだろうか?
本研究は,22の言語と5の下流タスクを対象とする,この問題に対処する最初の研究である。
論文 参考訳(メタデータ) (2024-04-06T07:10:47Z) - On the Role of Morphological Information for Contextual Lemmatization [7.106986689736827]
6言語における文脈補間器の開発における形態情報の役割について検討する。
バスク語、トルコ語、ロシア語、チェコ語、スペイン語、英語。
実験により、ドメイン外で最高のレマタイザは、単純な UPOS タグを使ったものか、形態学なしで訓練されたものであることが示唆されている。
論文 参考訳(メタデータ) (2023-02-01T12:47:09Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Evaluation of Morphological Embeddings for the Russian Language [0.0]
SkipgramObjectiveで訓練されたモルフォロジーベースの埋め込みは、既存の埋め込みモデル-FastTextを上回っません。
より複雑な、しかしモルフォロジーを知らないモデル、BERTは、単語のモルフォロジーの理解を必要とするタスクで大幅に大きなパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2021-03-11T11:59:11Z) - Morphological Disambiguation from Stemming Data [1.2183405753834562]
形態学的に豊かな言語であるKinyarwandaは、現在、自動形態素解析のためのツールを欠いている。
我々は、クラウドソーシングを通じて収集された新しいスリーミングデータセットから、Kinyarwandaの動詞形を形態的に曖昧にすることを学ぶ。
本実験により, 茎の屈折特性と形態素関連規則が, 曖昧さの最も識別的な特徴であることが判明した。
論文 参考訳(メタデータ) (2020-11-11T01:44:09Z) - Learning Universal Representations from Word to Sentence [89.82415322763475]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
本稿では, 単語, 句, 文の観点から, 類似したデータセットを構築するためのアプローチを提案する。
適切なトレーニング設定を組み込んだよく訓練されたトランスフォーマーモデルが、効果的に普遍的な表現が得られることを実証的に検証する。
論文 参考訳(メタデータ) (2020-09-10T03:53:18Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。