論文の概要: More than Just Statistical Recurrence: Human and Machine Unsupervised Learning of Māori Word Segmentation across Morphological Processes
- arxiv url: http://arxiv.org/abs/2403.14444v1
- Date: Thu, 21 Mar 2024 14:51:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-22 13:49:29.246999
- Title: More than Just Statistical Recurrence: Human and Machine Unsupervised Learning of Māori Word Segmentation across Morphological Processes
- Title(参考訳): 単なる統計的再帰以上のこと--形態的過程におけるMāori単語セグメンテーションの人間と機械による教師なし学習
- Authors: Ashvini Varatharaj, Simon Todd,
- Abstract要約: 非M=アオリ話者ニュージーランド人(NMS)は、M=アオリ語を流線型話者に非常に類似した方法で分割することができる。
教師なし機械学習モデルであるMorfessorによるNMSセグメンテーションとNMSセグメンテーションを比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-M\=aori-speaking New Zealanders (NMS)are able to segment M\=aori words in a highlysimilar way to fluent speakers (Panther et al.,2024). This ability is assumed to derive through the identification and extraction of statistically recurrent forms. We examine this assumption by asking how NMS segmentations compare to those produced by Morfessor, an unsupervised machine learning model that operates based on statistical recurrence, across words formed by a variety of morphological processes. Both NMS and Morfessor succeed in segmenting words formed by concatenative processes (compounding and affixation without allomorphy), but NMS also succeed for words that invoke templates (reduplication and allomorphy) and other cues to morphological structure, implying that their learning process is sensitive to more than just statistical recurrence.
- Abstract(参考訳): 非M\=アオリ語を話すニュージーランド人(NMS)は、M\=アオリ語を流線型話者(Panther et al ,2024)と非常に類似した方法で分類することができる。
この能力は、統計的に反復する形式の同定と抽出によって引き起こされると仮定される。
本研究では,NMSセグメンテーションとMorfessorの非教師なし機械学習モデルとを,様々な形態的プロセスによって形成された単語間でどのように比較するかを問うことで,この仮定を考察する。
NMSとMorfessorはどちらも、結合過程(アロモルフィスを含まない結合や接尾辞)によって形成される単語のセグメンテーションに成功しているが、NMSはテンプレート(複製やアロモルフィス)や他の形態構造を誘導する単語にも成功しており、学習過程が単に統計的再発に敏感であることを示している。
関連論文リスト
- Analysis of Argument Structure Constructions in a Deep Recurrent Language Model [0.0]
本稿では,再帰型ニューラルネットワークモデルにおけるArgument Structure Constructions(ASC)の表現と処理について検討する。
その結果, 文表現は, 全層にまたがる4つのASCに対応する異なるクラスタを形成することがわかった。
これは、脳に拘束された比較的単純なリカレントニューラルネットワークでさえ、様々な構成タイプを効果的に区別できることを示している。
論文 参考訳(メタデータ) (2024-08-06T09:27:41Z) - Latent State Models of Training Dynamics [51.88132043461152]
異なるランダムなシードでモデルをトレーニングし、トレーニングを通じてさまざまなメトリクスを計算します。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。
論文 参考訳(メタデータ) (2023-08-18T13:20:08Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Language Modeling, Lexical Translation, Reordering: The Training Process
of NMT through the Lens of Classical SMT [64.1841519527504]
ニューラルマシン翻訳は、翻訳プロセス全体をモデル化するために、単一のニューラルネットワークを使用する。
ニューラルネットワーク翻訳はデファクトスタンダードであるにもかかわらず、NMTモデルがトレーニングの過程でどのように異なる能力を獲得するのかは、まだ明らかになっていない。
論文 参考訳(メタデータ) (2021-09-03T09:38:50Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z) - Neural Named Entity Recognition for Kazakh [0.7646713951724009]
形態的複素言語(MCL)における名前付き実体認識の課題に対処するニューラルネットワークをいくつか提示する。
カザフ語は形態的に複雑な言語であり、それぞれの根/幹が数百から数千の変種語を生成できる。
論文 参考訳(メタデータ) (2020-07-17T16:45:22Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z) - Adversarial Subword Regularization for Robust Neural Machine Translation [23.968624881678913]
さまざまなサブワードセグメンテーションをニューラルネットワーク翻訳(NMT)モデルに公開することで、機械翻訳の堅牢性が向上することがしばしばある。
本稿では,訓練中の勾配信号が多種多様なサブワードセグメンテーションの代替基準となるかどうかを検討するために,ADVSR(adversarial subword regularization)を提案する。
論文 参考訳(メタデータ) (2020-04-29T12:06:42Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。