論文の概要: An Empirical Study for Vietnamese Constituency Parsing with Pre-training
- arxiv url: http://arxiv.org/abs/2010.09623v2
- Date: Tue, 20 Oct 2020 02:44:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 21:49:01.853598
- Title: An Empirical Study for Vietnamese Constituency Parsing with Pre-training
- Title(参考訳): プレトレーニングによるベトナム構成構文解析に関する経験的研究
- Authors: Tuan-Vi Tran, Xuan-Thien Pham, Duc-Vu Nguyen, Kiet Van Nguyen, Ngan
Luu-Thuy Nguyen
- Abstract要約: 我々はベトナムの選挙区解析にスパンベースのアプローチを採用している。
我々のXLM-Robertaモデルは、他の事前学習モデルよりもはるかに優れたF1スコアをアーカイブした。
- 参考スコア(独自算出の注目度): 2.5199066832791535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we use a span-based approach for Vietnamese constituency
parsing. Our method follows the self-attention encoder architecture and a chart
decoder using a CKY-style inference algorithm. We present analyses of the
experiment results of the comparison of our empirical method using pre-training
models XLM-Roberta and PhoBERT on both Vietnamese datasets VietTreebank and
NIIVTB1. The results show that our model with XLM-Roberta archived the
significantly F1-score better than other pre-training models, VietTreebank at
81.19% and NIIVTB1 at 85.70%.
- Abstract(参考訳): 本研究ではベトナムの選挙区解析にスパンベースのアプローチを用いる。
本手法は,CKY型推論アルゴリズムを用いた自己注意エンコーダアーキテクチャとチャートデコーダに従う。
ベトナムのVietTreebankとNIIVTB1のデータセットを用いた事前学習モデルXLM-RobertaとPhoBERTを用いた実験結果の比較実験を行った。
その結果、xlm-roberta を用いたモデルは、他の事前学習モデルである viettreebank 81.19% と niivtb1 85.70% よりもかなり優れた f1-score をアーカイブした。
関連論文リスト
- Transformer-Based Contextualized Language Models Joint with Neural Networks for Natural Language Inference in Vietnamese [1.7457686843484872]
文脈型言語モデル(CLM)とニューラルネットワークの様々な組み合わせを用いて実験を行う。
CLMとニューラルネットワークのジョイントアプローチはシンプルだが,高品質な性能を実現することができる。
論文 参考訳(メタデータ) (2024-11-20T15:46:48Z) - Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models [57.582219834039506]
提案手法は,146億のパラメータと16名のエキスパートを伴い,高性能な多言語モデル(LLM)であるSkywork-MoEの開発において実現された訓練手法を紹介する。
これは、Skywork-13Bモデルの既存の密度の高いチェックポイントに基づいています。
論文 参考訳(メタデータ) (2024-06-03T03:58:41Z) - SmurfCat at SemEval-2024 Task 6: Leveraging Synthetic Data for Hallucination Detection [51.99159169107426]
本稿では,SemEval-2024幻覚検出タスクのための新しいシステムを提案する。
我々の調査は、モデル予測と基準基準を比較するための様々な戦略にまたがっている。
強力なパフォーマンス指標を示す3つの異なる方法を紹介します。
論文 参考訳(メタデータ) (2024-04-09T09:03:44Z) - Learning for Amalgamation: A Multi-Source Transfer Learning Framework
For Sentiment Classification [1.9249287163937971]
本研究は,1つの事前学習モデルを用いたトランスファーラーニングの一般的な実践を超越した研究である。
いくつかの事前学習モデルから統合埋め込みを学ぶためのフレームワークLIFAを提案する。
ベトナム初の大規模感情分類データベースを構築した。
論文 参考訳(メタデータ) (2023-03-16T07:02:03Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z) - Federated Learning Aggregation: New Robust Algorithms with Guarantees [63.96013144017572]
エッジでの分散モデルトレーニングのために、フェデレートラーニングが最近提案されている。
本稿では,連合学習フレームワークにおける集約戦略を評価するために,完全な数学的収束解析を提案する。
損失の値に応じてクライアントのコントリビューションを差別化することで、モデルアーキテクチャを変更できる新しい集約アルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-05-22T16:37:53Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - Span Labeling Approach for Vietnamese and Chinese Word Segmentation [0.0]
ベトナム語単語セグメンテーション(SPAN SEG)のためのn-gram情報をモデル化するためのスパンラベリング手法を提案する。
我々は,同じアーキテクチャを持つエンコーダを用いて,スパンラベリング手法と条件付きランダムフィールドを比較した。
ベトナム語と中国語は類似した言語現象を持つため,ベトナム語木バンクベンチマークデータセットと5つの中国語ベンチマークデータセットを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2021-10-01T01:25:50Z) - Online Ensemble Model Compression using Knowledge Distillation [51.59021417947258]
本稿では,学生アンサンブルからなる知識蒸留に基づくモデル圧縮フレームワークを提案する。
圧縮された各学生モデルに対して同時に学習したアンサンブル知識の蒸留を可能にする。
フレームワークの有効性を検証するために,最先端の分類モデルを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2020-11-15T04:46:29Z) - A Simple and Efficient Ensemble Classifier Combining Multiple Neural
Network Models on Social Media Datasets in Vietnamese [2.7528170226206443]
本研究の目的は、ベトナムの3つのベンチマークデータセットから、ソーシャルメディア上のベトナム語のテキストを分類することである。
この研究では、CNN、LSTM、およびそれらの変種を含む高度なディープラーニングモデルを使用し、最適化されている。
私たちのアンサンブルモデルは、3つのデータセットで最高のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2020-09-28T04:28:48Z) - CIA_NITT at WNUT-2020 Task 2: Classification of COVID-19 Tweets Using
Pre-trained Language Models [0.0]
我々はこれをバイナリテキスト分類問題として扱い、事前訓練された言語モデルを用いて実験する。
我々はCT-BERTをベースとしたF1スコアを88.7%、CT-BERT、RoBERTa、SVMのアンサンブルであるF1スコアを88.52%とする。
論文 参考訳(メタデータ) (2020-09-12T12:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。