論文の概要: Investigating Monolingual and Multilingual BERTModels for Vietnamese
Aspect Category Detection
- arxiv url: http://arxiv.org/abs/2103.09519v1
- Date: Wed, 17 Mar 2021 09:04:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-18 13:09:17.424752
- Title: Investigating Monolingual and Multilingual BERTModels for Vietnamese
Aspect Category Detection
- Title(参考訳): ベトナム語カテゴリー検出のための単言語・多言語BERTモデルの検討
- Authors: Dang Van Thin, Lac Si Le, Vu Xuan Hoang, Ngan Luu-Thuy Nguyen
- Abstract要約: 本稿ではベトナムのアスペクトカテゴリー検出問題における多言語モデルと比較し,モノリンガル事前学習言語モデルの性能について検討する。
実験結果は、他の2つのデータセットよりもモノリンガルPhoBERTモデルの有効性を実証した。
我々の知識を最大限に活用するために,我々の研究はアスペクトカテゴリー検出タスクにおいて,様々な事前学習言語モデルを実行するための最初の試みである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Aspect category detection (ACD) is one of the challenging tasks in the
Aspect-based sentiment Analysis problem. The purpose of this task is to
identify the aspect categories mentioned in user-generated reviews from a set
of pre-defined categories. In this paper, we investigate the performance of
various monolingual pre-trained language models compared with multilingual
models on the Vietnamese aspect category detection problem. We conduct the
experiments on two benchmark datasets for the restaurant and hotel domain. The
experimental results demonstrated the effectiveness of the monolingual PhoBERT
model than others on two datasets. We also evaluate the performance of the
multilingual model based on the combination of whole SemEval-2016 datasets in
other languages with the Vietnamese dataset. To the best of our knowledge, our
research study is the first attempt at performing various available pre-trained
language models on aspect category detection task and utilize the datasets from
other languages based on multilingual models.
- Abstract(参考訳): アスペクトカテゴリー検出(ACD)は、アスペクトベースの感情分析問題における課題の1つである。
本研究の目的は,ユーザ生成レビューで言及されているアスペクトカテゴリを,事前に定義されたカテゴリの集合から識別することである。
本稿では,ベトナムのアスペクトカテゴリー検出問題における多言語モデルと比較し,モノリンガル事前学習言語モデルの性能について検討する。
レストランとホテルのドメインを対象とした2つのベンチマークデータセットで実験を行った。
実験結果から, 単言語PhoBERTモデルの2つのデータセット上での有効性が示された。
また,他言語におけるSemEval-2016データセットとベトナム語データセットの組合せに基づく多言語モデルの性能評価を行った。
私たちの知識を最大限に活用するため,本研究は,アスペクトカテゴリ検出タスクで利用可能なさまざまな事前学習言語モデルを実行し,多言語モデルに基づく他言語からのデータセットを活用する最初の試みである。
関連論文リスト
- P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。
以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。
我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。
本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。
提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文 参考訳(メタデータ) (2023-06-19T14:27:21Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - Mono vs Multilingual Transformer-based Models: a Comparison across
Several Language Tasks [1.2691047660244335]
BERT (Bidirectional Representations from Transformers) と ALBERT (A Lite BERT) は、言語モデルの事前学習方法である。
ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にしています。
論文 参考訳(メタデータ) (2020-07-19T19:13:20Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。