論文の概要: Span Labeling Approach for Vietnamese and Chinese Word Segmentation
- arxiv url: http://arxiv.org/abs/2110.00156v1
- Date: Fri, 1 Oct 2021 01:25:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-04 14:37:54.119007
- Title: Span Labeling Approach for Vietnamese and Chinese Word Segmentation
- Title(参考訳): ベトナム語と中国語の単語セグメンテーションのためのスパンラベリング手法
- Authors: Duc-Vu Nguyen, Linh-Bao Vo, Dang Van Thin, Ngan Luu-Thuy Nguyen
- Abstract要約: ベトナム語単語セグメンテーション(SPAN SEG)のためのn-gram情報をモデル化するためのスパンラベリング手法を提案する。
我々は,同じアーキテクチャを持つエンコーダを用いて,スパンラベリング手法と条件付きランダムフィールドを比較した。
ベトナム語と中国語は類似した言語現象を持つため,ベトナム語木バンクベンチマークデータセットと5つの中国語ベンチマークデータセットを用いて提案手法の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a span labeling approach to model n-gram
information for Vietnamese word segmentation, namely SPAN SEG. We compare the
span labeling approach with the conditional random field by using encoders with
the same architecture. Since Vietnamese and Chinese have similar linguistic
phenomena, we evaluated the proposed method on the Vietnamese treebank
benchmark dataset and five Chinese benchmark datasets. Through our experimental
results, the proposed approach SpanSeg achieves higher performance than the
sequence tagging approach with the state-of-the-art F-score of 98.31% on the
Vietnamese treebank benchmark, when they both apply the contextual pre-trained
language model XLM-RoBERTa and the predicted word boundary information.
Besides, we do fine-tuning experiments for the span labeling approach on BERT
and ZEN pre-trained language model for Chinese with fewer parameters, faster
inference time, and competitive or higher F-scores than the previous
state-of-the-art approach, word segmentation with word-hood memory networks, on
five Chinese benchmarks.
- Abstract(参考訳): 本稿ではベトナム語単語セグメンテーション(SPAN SEG)のためのn-gram情報をモデル化するためのスパンラベリング手法を提案する。
我々は,同じアーキテクチャを持つエンコーダを用いて,スパンラベリング手法と条件付きランダムフィールドを比較した。
ベトナム語と中国語は類似した言語現象を持つため,ベトナム語木バンクベンチマークデータセットと5つの中国語ベンチマークデータセットを用いて提案手法の評価を行った。
実験により,提案手法はベトナムのツリーバンクベンチマークで98.31%の最先端Fスコアを用いて,文脈事前学習言語モデルXLM-RoBERTaと予測語境界情報を適用した場合,シーケンスタギング手法よりも高い性能を実現する。
さらに,中国語の5つのベンチマークにおいて,前回よりパラメータの少ないbertとzenの事前学習した言語モデルに対して,スパンラベリングアプローチの微調整実験を行った。
関連論文リスト
- Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - WYWEB: A NLP Evaluation Benchmark For Classical Chinese [10.138128038929237]
古典中国語における9つのNLPタスクからなるWYWEB評価ベンチマークを紹介する。
我々は、このベンチマークで苦労している既存の事前学習言語モデルを評価する。
論文 参考訳(メタデータ) (2023-05-23T15:15:11Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Joint Chinese Word Segmentation and Span-based Constituency Parsing [11.080040070201608]
本研究は,中国語の単語セグメント化とSpanに基づくコンストラクタシーパーシングを共同で行う手法を提案する。
実験により,提案アルゴリズムは, CTB 5.1上での関節分割と補間のための最近のモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-11-03T08:19:00Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - Multi-view Subword Regularization [111.04350390045705]
マルチビューサブワード正規化(MVR)は、標準でトークン化された入力と確率的セグメンテーションとの整合性を強制する手法です。
XTREMEマルチ言語ベンチマークの結果は、MVRが標準セグメンテーションアルゴリズムよりも最大2.5ポイントの一貫性のある改善をもたらすことを示している。
論文 参考訳(メタデータ) (2021-03-15T16:07:42Z) - Augmenting Part-of-speech Tagging with Syntactic Information for
Vietnamese and Chinese [0.32228025627337864]
我々は,ベトナム語の単語分割と音声タグ付けの一部を,簡易な選挙区を用いて改善するという考え方を実装した。
共同語分割とパート・オブ・音声タギングのためのニューラルモデルは,音節に基づく構成のアーキテクチャを持つ。
このモデルは、予測された単語境界と、他のツールによる音声タグで拡張することができる。
論文 参考訳(メタデータ) (2021-02-24T08:57:02Z) - A Pilot Study of Text-to-SQL Semantic Parsing for Vietnamese [11.782566169354725]
ベトナムにおける大規模なテキスト・ソース・セマンティック・パーシング・データセットについて紹介する。
ベトナム語の単語の自動区分けにより,両方のベースラインの構文解析結果が改善されることが判明した。
PhoBERT for Vietnamは、最近の最高の多言語言語モデルXLM-Rよりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-10-05T09:54:51Z) - Vietnamese Word Segmentation with SVM: Ambiguity Reduction and Suffix
Capture [2.7528170226206443]
本稿では,2つの特徴抽出手法を提案する。1つは,重なりあいさを減らし,もう1つは,接尾辞を含む未知語を予測する能力を高める方法である。
提案手法では, 従来手法よりもF1スコアが向上し, RDRセグメンタ, UETセグメンタ, RDRセグメンタが得られた。
論文 参考訳(メタデータ) (2020-06-14T05:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。