論文の概要: A Masked Segmental Language Model for Unsupervised Natural Language
Segmentation
- arxiv url: http://arxiv.org/abs/2104.07829v1
- Date: Fri, 16 Apr 2021 00:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:27:50.221123
- Title: A Masked Segmental Language Model for Unsupervised Natural Language
Segmentation
- Title(参考訳): 教師なし自然言語セグメンテーションのためのマスキングセグメント言語モデル
- Authors: C.M. Downey, Fei Xia, Gina-Anne Levow, Shane Steinert-Threlkeld
- Abstract要約: Span-Maskingトランスフォーマーアーキテクチャ上に構築されたMasked Segmental Language Model(MSLM)を紹介します。
一連の実験では、私たちのモデルは中国語の繰り返しSLMを一貫して上回ります。
最後に、音素型ライティングシステムのセグメント化におけるさまざまな課題について議論する。
- 参考スコア(独自算出の注目度): 12.6839867674222
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segmentation remains an important preprocessing step both in languages where
"words" or other important syntactic/semantic units (like morphemes) are not
clearly delineated by white space, as well as when dealing with continuous
speech data, where there is often no meaningful pause between words.
Near-perfect supervised methods have been developed for use in resource-rich
languages such as Chinese, but many of the world's languages are both
morphologically complex, and have no large dataset of "gold" segmentations into
meaningful units. To solve this problem, we propose a new type of Segmental
Language Model (Sun and Deng, 2018; Kawakami et al., 2019; Wang et al., 2021)
for use in both unsupervised and lightly supervised segmentation tasks. We
introduce a Masked Segmental Language Model (MSLM) built on a span-masking
transformer architecture, harnessing the power of a bi-directional masked
modeling context and attention. In a series of experiments, our model
consistently outperforms Recurrent SLMs on Chinese (PKU Corpus) in segmentation
quality, and performs similarly to the Recurrent model on English (PTB). We
conclude by discussing the different challenges posed in segmenting
phonemic-type writing systems.
- Abstract(参考訳): セグメンテーションは、"words"や他の重要な構文/意味ユニット(morphemesのような)がホワイトスペースによって明確に記述されていない言語と、単語間に意味のある停止がない連続音声データを扱う言語の両方において、依然として重要な前処理ステップである。
ほぼ完全な教師付き手法は中国語などの資源豊富な言語で使用するために開発されてきたが、世界の言語の多くはどちらも形態的に複雑であり、意味のある単位に「金」セグメンテーションの大きなデータセットを持たない。
この問題を解決するために,教師なし・軽視的なセグメンテーションタスクの両方に使用するために,新しいタイプのセグメンショナル言語モデル(Sun and Deng, 2018; Kawakami et al., 2019; Wang et al., 2021)を提案する。
我々は,双方向マスキングモデリングコンテキストと注意力を活用した,スパンマスキングトランスフォーマーアーキテクチャ上に構築されたマスキングセグメント言語モデル(mslm)を提案する。
一連の実験において、我々のモデルは、中国語(PKU Corpus)におけるリカレントSLMのセグメンテーション品質を一貫して上回り、英語(PTB)におけるリカレントモデルと同様の性能を発揮する。
本稿では,音韻型書記システムにおいて生じる課題について論じる。
関連論文リスト
- Evaluating Shortest Edit Script Methods for Contextual Lemmatization [6.0158981171030685]
現代の文脈補綴器は、単語の形式を補題に変換するために、しばしば自動的に誘導された短い編集スクリプト(SES)に依存している。
これまでの研究では,SESが最終補修性能にどのような影響を及ぼすかは調査されていない。
ケーシング操作と編集操作を別々に計算することは、全体として有益であるが、高機能な形態を持つ言語には、より明確に有用であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:28:24Z) - Universal Segmentation at Arbitrary Granularity with Language
Instruction [59.76130089644841]
言語命令のガイダンスを用いて任意の意味レベルでセグメンテーションを行うことができるユニバーサルセグメンテーションモデルUniLSegを提案する。
UniLSegをトレーニングするために、元の多様な分布から統一されたデータ形式にタスク群を再構成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクを出力する。
論文 参考訳(メタデータ) (2023-12-04T04:47:48Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Subword Segmental Language Modelling for Nguni Languages [7.252933737829635]
サブワードセグメント言語モデル(SSLM)は、自動回帰言語モデリングのトレーニング中に単語をセグメントする方法を学ぶ。
南アフリカの4つのググニ語でモデルを訓練します。
この結果から,既存のサブワードセグメンテーションの代替として,学習サブワードセグメンテーションが有効であることが示唆された。
論文 参考訳(メタデータ) (2022-10-12T18:41:00Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Canonical and Surface Morphological Segmentation for Nguni Languages [6.805575417034369]
本稿では,形態区分の監督モデルと監督モデルについて検討する。
曲面セグメンテーションのための正規分割と条件ランダムフィールド(CRF)のためのシーケンス・トゥ・シークエンスモデルをトレーニングします。
トランスフォーマーは標準セグメンテーションに注目してLSTMを上回り、4つの言語で平均72.5%のF1スコアを得た。
教師付きセグメンテーションモデルの高性能化によって、Nguni言語のためのより良いNLPツールの開発が促進されることを期待する。
論文 参考訳(メタデータ) (2021-04-01T21:06:51Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - BURT: BERT-inspired Universal Representation from Learning Meaningful
Segment [46.51685959045527]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
我々は、異なるレベルの言語単位を同じベクトル空間に符号化する普遍表現モデルburtを提案する。
具体的には,ポイントワイズ相互情報(pmi)に基づいて有意義なセグメントを抽出・マスキングし,異なる粒度目標を事前学習段階に組み込む。
論文 参考訳(メタデータ) (2020-12-28T16:02:28Z) - UniLMv2: Pseudo-Masked Language Models for Unified Language Model
Pre-Training [152.63467944568094]
本稿では,自動エンコーディングと部分的自己回帰型言語モデリングタスクの両方に対して,統一言語モデルを事前学習することを提案する。
実験の結果,PMLMを用いて事前学習した統一言語モデルは,多種多様な自然言語理解・生成タスクにおいて,新たな最先端の成果が得られることがわかった。
論文 参考訳(メタデータ) (2020-02-28T15:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。