論文の概要: Morphological Analysis of Japanese Hiragana Sentences using the BI-LSTM
CRF Model
- arxiv url: http://arxiv.org/abs/2201.03366v1
- Date: Mon, 10 Jan 2022 14:36:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 15:00:01.673407
- Title: Morphological Analysis of Japanese Hiragana Sentences using the BI-LSTM
CRF Model
- Title(参考訳): BI-LSTM CRFモデルを用いた日本語平仮名文の形態解析
- Authors: Jun Izutsu and Kanako Komiya
- Abstract要約: 本研究では,日本語平仮名文に対する形態素解析器のニューラルモデル構築手法を提案する。
形態分析は、テキストデータを単語に分割し、音声の一部などの情報を割り当てる技法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study proposes a method to develop neural models of the morphological
analyzer for Japanese Hiragana sentences using the Bi-LSTM CRF model.
Morphological analysis is a technique that divides text data into words and
assigns information such as parts of speech. This technique plays an essential
role in downstream applications in Japanese natural language processing systems
because the Japanese language does not have word delimiters between words.
Hiragana is a type of Japanese phonogramic characters, which is used for texts
for children or people who cannot read Chinese characters. Morphological
analysis of Hiragana sentences is more difficult than that of ordinary Japanese
sentences because there is less information for dividing. For morphological
analysis of Hiragana sentences, we demonstrated the effectiveness of
fine-tuning using a model based on ordinary Japanese text and examined the
influence of training data on texts of various genres.
- Abstract(参考訳): 本研究では,Bi-LSTM CRFモデルを用いて日本語平仮名文の形態解析器のニューラルモデルを構築する手法を提案する。
形態素解析は、テキストデータを単語に分割し、音声の一部などの情報を割り当てる技術である。
この手法は,日本語に単語の区切りがないため,自然言語処理システムにおける下流の応用において重要な役割を担っている。
平仮名(ひらがな)は、日本語の文字の一種で、子供や漢字が読めない人向けのテキストに用いられる。
平仮名文の形態素解析は, 分割情報が少ないため, 通常の日本語文よりも困難である。
平仮名文の形態解析において,通常の日本語テキストに基づくモデルを用いた微調整の有効性を実証し,各種ジャンルのテキストに対する訓練データの影響を検討した。
関連論文リスト
- Examining Language Modeling Assumptions Using an Annotated Literary Dialect Corpus [0.0]
19世紀のアメリカの文学的変種トークンのデータセットを,人間の注釈付き方言群タグの新たな層で提示する。
意図的な正書法変化によって生じる「方言効果」が複数の言語チャネルを取り入れていることを示す。
論文 参考訳(メタデータ) (2024-10-03T16:58:21Z) - Kanbun-LM: Reading and Translating Classical Chinese in Japanese Methods by Language Models [17.749113496737106]
世界で最初の古典漢文データセットを構築した。
漢字の並べ替えや機械翻訳は漢文理解において重要な役割を担っている。
コードとデータセットはGitHubでリリースしています。
論文 参考訳(メタデータ) (2023-05-22T06:30:02Z) - Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Predicting the Ordering of Characters in Japanese Historical Documents [6.82324732276004]
1900年(明治33年)の日本書記制度の変遷により、歴史文書は一般には入手できないものとなった。
キャラクタの逐次順序を予測するタスクに対するいくつかのアプローチについて検討する。
私たちのベストパフォーマンスシステムは98.65%の精度で、データセットの書籍の49%で完璧に正確です。
論文 参考訳(メタデータ) (2021-06-12T14:39:20Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - Generating Adversarial Examples in Chinese Texts Using Sentence-Pieces [60.58900627906269]
文片を用いた代用ジェネレータとして,中国語の逆例を作成できる事前学習型言語モデルを提案する。
生成した敵の例の置換は文字や単語ではなく「テキスト」であり、中国の読者にとって自然である。
論文 参考訳(メタデータ) (2020-12-29T14:28:07Z) - Inference-only sub-character decomposition improves translation of
unseen logographic characters [18.148675498274866]
ログソース言語上のニューラルマシン翻訳(NMT)は、未知の文字を翻訳する際に苦労する。
中国語と日本語のNMTにおける既存のイデオログラフに基づくサブ文字分解手法について検討する。
完全部分文字分解は文字翻訳を損なうことが多く、概して矛盾する結果をもたらす。
論文 参考訳(メタデータ) (2020-11-12T17:36:22Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。