論文の概要: Vietnamese Word Segmentation with SVM: Ambiguity Reduction and Suffix
Capture
- arxiv url: http://arxiv.org/abs/2006.07804v1
- Date: Sun, 14 Jun 2020 05:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 12:55:21.262326
- Title: Vietnamese Word Segmentation with SVM: Ambiguity Reduction and Suffix
Capture
- Title(参考訳): SVMによるベトナム語の単語分割:曖昧さの低減と接尾辞の獲得
- Authors: Duc-Vu Nguyen, Dang Van Thin, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen
- Abstract要約: 本稿では,2つの特徴抽出手法を提案する。1つは,重なりあいさを減らし,もう1つは,接尾辞を含む未知語を予測する能力を高める方法である。
提案手法では, 従来手法よりもF1スコアが向上し, RDRセグメンタ, UETセグメンタ, RDRセグメンタが得られた。
- 参考スコア(独自算出の注目度): 2.7528170226206443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we approach Vietnamese word segmentation as a binary
classification by using the Support Vector Machine classifier. We inherit
features from prior works such as n-gram of syllables, n-gram of syllable
types, and checking conjunction of adjacent syllables in the dictionary. We
propose two novel ways to feature extraction, one to reduce the overlap
ambiguity and the other to increase the ability to predict unknown words
containing suffixes. Different from UETsegmenter and RDRsegmenter, two
state-of-the-art Vietnamese word segmentation methods, we do not employ the
longest matching algorithm as an initial processing step or any post-processing
technique. According to experimental results on benchmark Vietnamese datasets,
our proposed method obtained a better F1-score than the prior state-of-the-art
methods UETsegmenter, and RDRsegmenter.
- Abstract(参考訳): 本稿では,サポートベクトルマシン分類器を用いてベトナム語の単語分割を二項分類としてアプローチする。
我々は,音節のn-gram,音節タイプのn-gram,辞書の隣接音節の結合チェックなどの先行研究から特徴を継承する。
特徴抽出には, 重なりあいまいさの低減と, 接尾辞を含む未知語の予測能力の向上という2つの新しい手法を提案する。
UETsegmenterとRDRsegmenterとは違い、2つのベトナム語単語分割法は、初期処理ステップや後処理技術として、最も長いマッチングアルゴリズムを使用しない。
ベトナムのベンチマークデータを用いた実験結果によると,提案手法は従来の最先端のUETセグメンタやRDRセグメンタよりも優れたF1スコアを得た。
関連論文リスト
- Lexically Grounded Subword Segmentation [0.0]
トークン化とサブワードセグメンテーションの3つの革新を提示する。
まず,Morfessorを用いた教師なし形態素解析を事前学習に用いることを提案する。
第二に、単語埋め込み空間に接地したサブワード埋め込みを得る方法を提案する。
第3に,単語ビッグラムモデルに基づく効率的なセグメンテーションアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-19T13:48:19Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Associating Spatially-Consistent Grouping with Text-supervised Semantic
Segmentation [117.36746226803993]
テキスト教師付きセマンティックセグメンテーションを用いた自己教師付き空間一貫性グループ化を提案する。
部分的なグループ化結果を考えると、さらに画像レベルから領域レベルへのテキスト教師付きモデルを適用する。
59.2% mIoU と 32.4% mIoU を Pascal VOC および Pascal Context ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-04-03T16:24:39Z) - Is word segmentation necessary for Vietnamese sentiment classification? [0.30458514384586405]
本論文はベトナムの感情分類に単語分割が不可欠かどうかを最初に答える試みである。
我々はベトナム語に対して,単語分割のない1つのモデルを含む5つの事前訓練された単言語S4ベースの言語モデルを提示した。
このようにして、RDRセグメンタは、uitnlp、pyvi、アンダーテセアツールキット間の単語セグメンテーションのための安定したツールキットである。
論文 参考訳(メタデータ) (2023-01-01T15:04:47Z) - Span Labeling Approach for Vietnamese and Chinese Word Segmentation [0.0]
ベトナム語単語セグメンテーション(SPAN SEG)のためのn-gram情報をモデル化するためのスパンラベリング手法を提案する。
我々は,同じアーキテクチャを持つエンコーダを用いて,スパンラベリング手法と条件付きランダムフィールドを比較した。
ベトナム語と中国語は類似した言語現象を持つため,ベトナム語木バンクベンチマークデータセットと5つの中国語ベンチマークデータセットを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2021-10-01T01:25:50Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z) - Accelerating Text Mining Using Domain-Specific Stop Word Lists [57.76576681191192]
本稿では,超平面的アプローチと呼ばれるドメイン固有語の自動抽出手法を提案する。
ハイパープレーンベースのアプローチは、無関係な特徴を排除することによって、テキストの寸法を著しく削減することができる。
その結果,超平面型アプローチはコーパスの寸法を90%削減し,相互情報より優れることがわかった。
論文 参考訳(メタデータ) (2020-11-18T17:42:32Z) - Improving Chinese Segmentation-free Word Embedding With Unsupervised
Association Measure [3.9435648520559177]
時間情報とポイントワイド関連性(PATI)という,新しい教師なしの関連尺度を通じてn-gramの語彙を収集することにより,セグメンテーションフリーな単語埋め込みモデルを提案する
提案手法では, コーパスからより潜時的な情報を利用して, 中国語テキストなどの未分類言語データに, より強い凝集度を持つn-gramを埋め込み, より有効なn-gramを収集できる。
論文 参考訳(メタデータ) (2020-07-05T13:55:19Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。