論文の概要: Joint Khmer Word Segmentation and Part-of-Speech Tagging Using Deep
Learning
- arxiv url: http://arxiv.org/abs/2103.16801v1
- Date: Wed, 31 Mar 2021 04:26:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 03:23:32.150654
- Title: Joint Khmer Word Segmentation and Part-of-Speech Tagging Using Deep
Learning
- Title(参考訳): 深層学習を用いたクメール語分割とパート・オブ・スパイチタギング
- Authors: Rina Buoy and Nguonly Taing and Sokchea Kor
- Abstract要約: 単一深層学習モデルを用いた共同ワードセグメンテーションとPOSタグ付け手法を提案する。
提案したモデルは、Khmer POSデータセットを使用してトレーニングされ、テストされた。
検証の結果、ジョイントモデルの性能は従来の2段階POSタグングと同等であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Khmer text is written from left to right with optional space. Space is not
served as a word boundary but instead, it is used for readability or other
functional purposes. Word segmentation is a prior step for downstream tasks
such as part-of-speech (POS) tagging and thus, the robustness of POS tagging
highly depends on word segmentation. The conventional Khmer POS tagging is a
two-stage process that begins with word segmentation and then actual tagging of
each word, afterward. In this work, a joint word segmentation and POS tagging
approach using a single deep learning model is proposed so that word
segmentation and POS tagging can be performed spontaneously. The proposed model
was trained and tested using the publicly available Khmer POS dataset. The
validation suggested that the performance of the joint model is on par with the
conventional two-stage POS tagging.
- Abstract(参考訳): Khmerテキストは、オプションスペースで左から右に書かれています。
空間は単語境界としてではなく、可読性やその他の機能目的のために使われる。
ワードセグメンテーションは、pos(part-of-speech)タグ付けのような下流タスクの事前ステップであり、posタグの堅牢性は単語セグメンテーションに大きく依存する。
従来のkhmer pos taggingは2段階のプロセスであり、単語のセグメンテーションから始まり、その後各単語の実際のタグ付けへと続く。
本研究では,単一深層学習モデルを用いた単語分割とPOSタグ付け手法を提案し,単語分割とPOSタグ付けを自然に行えるようにした。
提案したモデルは、Khmer POSデータセットを使用してトレーニングされ、テストされた。
検証の結果,ジョイントモデルの性能は従来の2段階のposタグと同等であることが示唆された。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Colloquial Persian POS (CPPOS) Corpus: A Novel Corpus for Colloquial
Persian Part of Speech Tagging [0.9843385481559193]
本稿では,新しいコーパス "Colloquial Persian POS" (CPPOS) について紹介する。
コーパスには、Telegram、Twitter、Instagramで政治的、社会的、商業などの様々なドメインから収集された公式テキストと非公式テキストが含まれている。
論文 参考訳(メタデータ) (2023-10-01T05:06:33Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - Open Vocabulary Semantic Segmentation with Patch Aligned Contrastive
Learning [82.70453633641466]
Patch Aligned Contrastive Learning (PACL)を導入する。
PACLは画像レベルの予測にも適用可能であることを示し、CLIPバックボーンで使用すると、ゼロショット分類精度が全般的に向上することを示した。
論文 参考訳(メタデータ) (2022-12-09T17:23:00Z) - Hierarchical Context Tagging for Utterance Rewriting [51.251400047377324]
配列を線形に生成するのではなくタグ付けする方法は、ドメイン内および外部の書き直し設定においてより強力であることが証明されている。
本稿では,スロット付きルールを予測してこの問題を緩和する階層型コンテキストタグを提案する。
いくつかのベンチマーク実験により、HCTは2つのBLEUポイントで最先端の書き換えシステムより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-22T17:09:34Z) - Joint Chinese Word Segmentation and Part-of-speech Tagging via Two-stage
Span Labeling [0.2624902795082451]
SpanSegTagと名づけられた中国語単語分割と音声タグ付けのためのニューラルモデルを提案する。
実験の結果,BERTベースのモデルであるSpanSegTagは,CTB5,CTB6,UDデータセット上での競合性能を達成した。
論文 参考訳(メタデータ) (2021-12-17T12:59:02Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z) - Enhancing Sindhi Word Segmentation using Subword Representation Learning and Position-aware Self-attention [19.520840812910357]
シンディー語のセグメンテーションは、宇宙の欠落と挿入の問題のために難しい課題である。
既存のシンディー語のセグメンテーション手法は手作りの機能の設計と組み合わせに依存している。
本稿では,単語分割をシーケンスラベリングタスクとして扱うサブワードガイド型ニューラルワードセグメンタ(SGNWS)を提案する。
論文 参考訳(メタデータ) (2020-12-30T08:31:31Z) - Reliable Part-of-Speech Tagging of Historical Corpora through Set-Valued Prediction [21.67895423776014]
設定値予測の枠組みにおけるPOSタグ付けについて検討する。
最先端のPOSタグをセット値の予測に拡張すると、より正確で堅牢なタグ付けが得られます。
論文 参考訳(メタデータ) (2020-08-04T07:21:36Z) - Adversarial Transfer Learning for Punctuation Restoration [58.2201356693101]
句読点予測のためのタスク不変知識を学習するために,逆多タスク学習を導入する。
IWSLT2011データセットを用いて実験を行った。
論文 参考訳(メタデータ) (2020-04-01T06:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。