論文の概要: A Subword Guided Neural Word Segmentation Model for Sindhi
- arxiv url: http://arxiv.org/abs/2012.15079v1
- Date: Wed, 30 Dec 2020 08:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-18 16:19:02.225212
- Title: A Subword Guided Neural Word Segmentation Model for Sindhi
- Title(参考訳): sindhiのためのサブワード誘導ニューラルワードセグメンテーションモデル
- Authors: Wazir Ali, Jay Kumar, Zenglin Xu, Congjian Luo, Junyu Lu, Junming
Shao, Rajesh Kumar, and Yazhou Ren
- Abstract要約: ディープニューラルネットワークは、自然言語処理(NLP)における手動特徴工学の負担を軽減するために、テキスト表現の学習に複数の処理層を使用する
本稿では,Sindhi用サブワードガイドワードセグメンタ(SGNWS)を用いた非ラベルデータを用いた教師付きSindhi Word(SWS)について検討する。
提案したSGNWSモデルは機能工学に頼らずに98.51%のF1値を達成する。
- 参考スコア(独自算出の注目度): 24.489385463262188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks employ multiple processing layers for learning text
representations to alleviate the burden of manual feature engineering in
Natural Language Processing (NLP). Such text representations are widely used to
extract features from unlabeled data. The word segmentation is a fundamental
and inevitable prerequisite for many languages. Sindhi is an under-resourced
language, whose segmentation is challenging as it exhibits space omission,
space insertion issues, and lacks the labeled corpus for segmentation. In this
paper, we investigate supervised Sindhi Word Segmentation (SWS) using unlabeled
data with a Subword Guided Neural Word Segmenter (SGNWS) for Sindhi. In order
to learn text representations, we incorporate subword representations to
recurrent neural architecture to capture word information at morphemic-level,
which takes advantage of Bidirectional Long-Short Term Memory (BiLSTM),
self-attention mechanism, and Conditional Random Field (CRF). Our proposed
SGNWS model achieves an F1 value of 98.51% without relying on feature
engineering. The empirical results demonstrate the benefits of the proposed
model over the existing Sindhi word segmenters.
- Abstract(参考訳): ディープニューラルネットワークは、自然言語処理(nlp)における手動特徴工学の負担を軽減するために、テキスト表現の学習に複数の処理層を用いる。
このようなテキスト表現はラベルのないデータから特徴を抽出するために広く使われている。
セグメンテーションという言葉は多くの言語にとって基本的かつ必然的な前提条件である。
Sindhiはリソース不足の言語であり、空間欠落、空間挿入の問題、セグメンテーションのためのラベル付きコーパスがないため、セグメンテーションは困難である。
本稿では,Syndhi のための Subword Guided Neural Word Segmenter (SGNWS) を用いたラベル付きデータを用いた教師付き Sindhi Word Segmentation (SWS) について検討する。
テキスト表現を学習するために,2方向長短項記憶(BiLSTM),自己注意機構,条件付きランダムフィールド(CRF)を活用する形態素レベルで単語情報をキャプチャするために,サブワード表現を繰り返しニューラルネットワークに組み込む。
提案したSGNWSモデルは機能工学に頼らずに98.51%のF1値を達成する。
実験の結果,既存のsindhi単語セグメンタよりも,提案モデルの利点が示された。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Are word boundaries useful for unsupervised language learning? [13.049946284598935]
単語は少なくとも2種類の関連情報(境界情報と意味単位)を提供する。
音声入力の場合,単語境界情報が欠落しているか,信頼できないかを示す。
我々は,非教師付きセグメンテーションアルゴリズムで得られたゴールド境界を,自動的に検出した領域に置き換えることができることを示す。
論文 参考訳(メタデータ) (2022-10-06T14:49:42Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-stage
Span Labeling [0.2624902795082451]
SpanSegTagと名づけられた中国語単語分割と音声タグ付けのためのニューラルモデルを提案する。
実験の結果,BERTベースのモデルであるSpanSegTagは,CTB5,CTB6,UDデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2021-12-17T12:59:02Z) - On the Difficulty of Segmenting Words with Attention [32.97060026226872]
しかし、モノリンガルデータでさえこのアプローチは脆弱であることを示す。
異なる入力タイプ、データサイズ、セグメンテーションアルゴリズムの実験では、単語から電話を予測するために訓練されたモデルのみがタスクを成功させる。
論文 参考訳(メタデータ) (2021-09-21T11:37:08Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Improving Chinese Segmentation-free Word Embedding With Unsupervised
Association Measure [3.9435648520559177]
時間情報とポイントワイド関連性(PATI)という,新しい教師なしの関連尺度を通じてn-gramの語彙を収集することにより,セグメンテーションフリーな単語埋め込みモデルを提案する
提案手法では, コーパスからより潜時的な情報を利用して, 中国語テキストなどの未分類言語データに, より強い凝集度を持つn-gramを埋め込み, より有効なn-gramを収集できる。
論文 参考訳(メタデータ) (2020-07-05T13:55:19Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。