論文の概要: Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese
- arxiv url: http://arxiv.org/abs/2102.12136v1
- Date: Wed, 24 Feb 2021 08:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:34:21.514541
- Title: Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese
- Title(参考訳): ベトナム語と中国語の構文情報を用いたパート・オブ・スパイチタギングの強化
- Authors: Duc-Vu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen
- Abstract要約: 我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
- 参考スコア(独自算出の注目度): 0.32228025627337864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word segmentation and part-of-speech tagging are two critical preliminary
steps for downstream tasks in Vietnamese natural language processing. In
reality, people tend to consider also the phrase boundary when performing word
segmentation and part of speech tagging rather than solely process word by word
from left to right. In this paper, we implement this idea to improve word
segmentation and part of speech tagging the Vietnamese language by employing a
simplified constituency parser. Our neural model for joint word segmentation
and part-of-speech tagging has the architecture of the syllable-based CRF
constituency parser. To reduce the complexity of parsing, we replace all
constituent labels with a single label indicating for phrases. This model can
be augmented with predicted word boundary and part-of-speech tags by other
tools. Because Vietnamese and Chinese have some similar linguistic phenomena,
we evaluated the proposed model and its augmented versions on three Vietnamese
benchmark datasets and six Chinese benchmark datasets. Our experimental results
show that the proposed model achieves higher performances than previous works
for both languages.
- Abstract(参考訳): 単語セグメンテーションと音声タグ付けはベトナムの自然言語処理における下流タスクの2つの重要な予備段階である。
実際には、単語のセグメンテーションや音声タグ付けを行う際に、単語を左から右に処理するだけでなく、フレーズ境界も考慮する傾向があります。
本稿では,ベトナム語の単語セグメンテーションを改善するために,簡易な選挙区パーサを用いてベトナム語をタグ付けする手法を提案する。
単語分割と音声タグ付けのためのニューラルモデルは,音節ベースのCRF補間器のアーキテクチャを持つ。
構文解析の複雑さを軽減するため、すべての構成ラベルをフレーズを示す単一のラベルに置き換える。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
ベトナム語と中国語には同様の言語現象があるため、提案されたモデルとその拡張バージョンをベトナムの3つのベンチマークデータセットと中国の6つのベンチマークデータセットで評価しました。
実験の結果,提案モデルが両言語の従来作品よりも高い性能を発揮できることが示された。
関連論文リスト
- Wav2Gloss: Generating Interlinear Glossed Text from Speech [78.64412090339044]
音声から4つの言語アノテーションを自動抽出するタスクであるWav2Glossを提案する。
音声からのインターリニア・グロッシド・テキスト・ジェネレーションの今後の研究の基盤となる基盤となるものについて述べる。
論文 参考訳(メタデータ) (2024-03-19T21:45:29Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - Joint Chinese Word Segmentation and Span-based Constituency Parsing [11.080040070201608]
本研究は,中国語の単語セグメント化とSpanに基づくコンストラクタシーパーシングを共同で行う手法を提案する。
実験により,提案アルゴリズムは, CTB 5.1上での関節分割と補間のための最近のモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:19:00Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-stage
Span Labeling [0.2624902795082451]
SpanSegTagと名づけられた中国語単語分割と音声タグ付けのためのニューラルモデルを提案する。
実験の結果,BERTベースのモデルであるSpanSegTagは,CTB5,CTB6,UDデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2021-12-17T12:59:02Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - End-to-End Chinese Parsing Exploiting Lexicons [15.786281545363448]
本稿では,単語分割,部分音声タグ,依存関係構造を共同で学習する文字入力に基づくエンドツーエンド中国語構文解析モデルを提案する。
解析モデルは,文字入力を外部の単語知識で豊かにすることができるワードチャートグラフアテンションネットワークに依存している。
論文 参考訳(メタデータ) (2020-12-08T12:24:36Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - Vietnamese Word Segmentation with SVM: Ambiguity Reduction and Suffix
Capture [2.7528170226206443]
本稿では,2つの特徴抽出手法を提案する。1つは,重なりあいさを減らし,もう1つは,接尾辞を含む未知語を予測する能力を高める方法である。
提案手法では, 従来手法よりもF1スコアが向上し, RDRセグメンタ, UETセグメンタ, RDRセグメンタが得られた。
論文 参考訳(メタデータ) (2020-06-14T05:19:46Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - Investigating Language Impact in Bilingual Approaches for Computational
Language Documentation [28.838960956506018]
本稿では,翻訳言語の選択が後続文書作業に与える影響について検討する。
我々は56対のバイリンガルペアを作成し、低リソースの教師なし単語分割とアライメントのタスクに適用する。
この結果から,ニューラルネットワークの入力表現に手がかりを取り入れることで,翻訳品質とアライメント品質が向上することが示唆された。
論文 参考訳(メタデータ) (2020-03-30T10:30:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。