論文の概要: Towards the Study of Morphological Processing of the Tangkhul Language
- arxiv url: http://arxiv.org/abs/2006.16212v1
- Date: Mon, 29 Jun 2020 17:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 14:40:29.016278
- Title: Towards the Study of Morphological Processing of the Tangkhul Language
- Title(参考訳): タングル語の形態処理の研究に向けて
- Authors: Mirinso Shadang, Navanath Saharia, Thoudam Doren Singh
- Abstract要約: 私たちは、テキストブック、短編記事、その他のトピックのさまざまなソースから収集された小さなコーパスを使用します。
実験により, 形態素を用いた形態素識別タスクは, 合理的かつ興味深い出力を与える。
- 参考スコア(独自算出の注目度): 1.2661010067882734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is no or little work on natural language processing of Tangkhul
language. The current work is a humble beginning of morphological processing of
this language using an unsupervised approach. We use a small corpus collected
from different sources of text books, short stories and articles of other
topics. Based on the experiments carried out, the morpheme identification task
using morphessor gives reasonable and interesting output despite using a small
corpus.
- Abstract(参考訳): タングル語の自然言語処理についてはほとんど研究されていない。
現在の研究は、教師なしのアプローチによるこの言語の形態素処理の控えめな始まりである。
テキストブックや短編,その他の話題の記事など,さまざまなソースから収集した小さなコーパスを使用する。
実験の結果, 形態素を用いた形態素識別タスクは, 小型コーパスを用いても, 合理的かつ興味深い出力が得られることがわかった。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Extending Multilingual Machine Translation through Imitation Learning [60.15671816513614]
Imit-MNMTは、タスクを専門家の行動を模倣する模倣学習プロセスとして扱う。
提案手法は,新言語と原言語の翻訳性能を大幅に向上させることを示す。
我々はまた、我々のアプローチがコピーとオフターゲットの問題を解決することができることを示した。
論文 参考訳(メタデータ) (2023-11-14T21:04:03Z) - A Corpus for Sentence-level Subjectivity Detection on English News Articles [49.49218203204942]
我々はこのガイドラインを用いて、議論を呼んだ話題に関する英ニュース記事から抽出した638の目的語と411の主観的な文からなるNewsSD-ENGを収集する。
我々のコーパスは、語彙や機械翻訳といった言語固有のツールに頼ることなく、英語で主観的検出を行う方法を舗装している。
論文 参考訳(メタデータ) (2023-05-29T11:54:50Z) - On the Role of Morphological Information for Contextual Lemmatization [7.106986689736827]
6言語における文脈補間器の開発における形態情報の役割について検討する。
バスク語、トルコ語、ロシア語、チェコ語、スペイン語、英語。
実験により、ドメイン外で最高のレマタイザは、単純な UPOS タグを使ったものか、形態学なしで訓練されたものであることが示唆されている。
論文 参考訳(メタデータ) (2023-02-01T12:47:09Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - Morphological Disambiguation from Stemming Data [1.2183405753834562]
形態学的に豊かな言語であるKinyarwandaは、現在、自動形態素解析のためのツールを欠いている。
我々は、クラウドソーシングを通じて収集された新しいスリーミングデータセットから、Kinyarwandaの動詞形を形態的に曖昧にすることを学ぶ。
本実験により, 茎の屈折特性と形態素関連規則が, 曖昧さの最も識別的な特徴であることが判明した。
論文 参考訳(メタデータ) (2020-11-11T01:44:09Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Comparison of Turkish Word Representations Trained on Different
Morphological Forms [0.0]
本研究では形態学的に異なる形態のテキストをトルコ語の形態学的に豊かな言語で作成する。
我々は,補題と接尾辞を異なる方法で扱うテキスト上で, word2vec モデルを訓練した。
また、サブワードモデルであるfastTextを訓練し、単語アナロジー、テキスト分類、感情分析、言語モデルタスクへの埋め込みを比較した。
論文 参考訳(メタデータ) (2020-02-13T10:09:31Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。