論文の概要: Is word segmentation necessary for Vietnamese sentiment classification?
- arxiv url: http://arxiv.org/abs/2301.00418v1
- Date: Sun, 1 Jan 2023 15:04:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 14:54:12.511278
- Title: Is word segmentation necessary for Vietnamese sentiment classification?
- Title(参考訳): ベトナムの感情分類に単語セグメンテーションは必要か?
- Authors: Duc-Vu Nguyen, Ngan Luu-Thuy Nguyen
- Abstract要約: 本論文はベトナムの感情分類に単語分割が不可欠かどうかを最初に答える試みである。
我々はベトナム語に対して,単語分割のない1つのモデルを含む5つの事前訓練された単言語S4ベースの言語モデルを提示した。
このようにして、RDRセグメンタは、uitnlp、pyvi、アンダーテセアツールキット間の単語セグメンテーションのための安定したツールキットである。
- 参考スコア(独自算出の注目度): 0.30458514384586405
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To the best of our knowledge, this paper made the first attempt to answer
whether word segmentation is necessary for Vietnamese sentiment classification.
To do this, we presented five pre-trained monolingual S4- based language models
for Vietnamese, including one model without word segmentation, and four models
using RDRsegmenter, uitnlp, pyvi, or underthesea toolkits in the pre-processing
data phase. According to comprehensive experimental results on two corpora,
including the VLSP2016-SA corpus of technical article reviews from the news and
social media and the UIT-VSFC corpus of the educational survey, we have two
suggestions. Firstly, using traditional classifiers like Naive Bayes or Support
Vector Machines, word segmentation maybe not be necessary for the Vietnamese
sentiment classification corpus, which comes from the social domain. Secondly,
word segmentation is necessary for Vietnamese sentiment classification when
word segmentation is used before using the BPE method and feeding into the deep
learning model. In this way, the RDRsegmenter is the stable toolkit for word
segmentation among the uitnlp, pyvi, and underthesea toolkits.
- Abstract(参考訳): 本研究は,ベトナムの感情分類において,単語の区分けが不可欠であるかどうかを問う最初の試みである。
そこで本研究では,ベトナム語用単言語s4ベースの言語モデルとして,単語セグメンテーションのない1つのモデル,rdrsegmenter, uitnlp, pyvi, underthesea toolkitsを用いた4つのモデルを提示した。
学術論文レビューのvlsp2016-saコーパスと教育調査のuit-vsfcコーパスを含む2つのコーパスの総合的な実験結果から,2つの提案がある。
まず、Naive BayesやSupport Vector Machinesのような伝統的な分類器を使って、単語のセグメンテーションは、ソーシャルドメインから派生したベトナムの感情分類コーパスには必要ないかもしれない。
第2に,BPE法を用いて深層学習モデルに入力する前に,単語セグメンテーションを使用する場合,ベトナムの感情分類において単語セグメンテーションが必要である。
このように、rdrsegmenterはuitnlp、pyvi、undertheseaツールキット間のワードセグメンテーションのための安定したツールキットである。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic
Sentence Segmentation [65.6736056006381]
85言語を対象とした多言語句読解文セグメンテーション法を提案する。
提案手法は,従来の最良文分割ツールを平均6.1%F1ポイントで上回っている。
MTモデルの訓練に使用するセグメンテーションと文のセグメンテーションを一致させる手法を用いて,平均2.3BLEU点の改善を実現する。
論文 参考訳(メタデータ) (2023-05-30T09:49:42Z) - Subword Segmental Machine Translation: Unifying Segmentation and Target
Sentence Generation [7.252933737829635]
サブワードセグメント機械翻訳(SSMT)は、目標文を生成するために共同学習しながら、ターゲット文をセグメント化することを学ぶ。
6つの翻訳方向にわたる実験により、SSMTは形態学的にリッチな凝集言語に対するchrFスコアを改善することが示された。
論文 参考訳(メタデータ) (2023-05-11T17:44:29Z) - Analyzing Vietnamese Legal Questions Using Deep Neural Networks with
Biaffine Classifiers [3.116035935327534]
我々は深層ニューラルネットワークを用いてベトナムの法的問題から重要な情報を抽出することを提案する。
自然言語で法的疑問が与えられた場合、その疑問に答えるために必要な情報を含む全てのセグメントを抽出することが目的である。
論文 参考訳(メタデータ) (2023-04-27T18:19:24Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z) - Vietnamese Word Segmentation with SVM: Ambiguity Reduction and Suffix
Capture [2.7528170226206443]
本稿では,2つの特徴抽出手法を提案する。1つは,重なりあいさを減らし,もう1つは,接尾辞を含む未知語を予測する能力を高める方法である。
提案手法では, 従来手法よりもF1スコアが向上し, RDRセグメンタ, UETセグメンタ, RDRセグメンタが得られた。
論文 参考訳(メタデータ) (2020-06-14T05:19:46Z) - Incorporating Uncertain Segmentation Information into Chinese NER for
Social Media Text [18.455836845989523]
セグメンテーションエラーの伝播は、中国のエンティティ認識システムにとっての課題である。
中国のソーシャルメディアテキストからエンティティを識別するモデル(UIcwsNN)を提案する。
論文 参考訳(メタデータ) (2020-04-14T09:39:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。