論文の概要: Retrieval and Generative Approaches for a Pregnancy Chatbot in Nepali
with Stemmed and Non-Stemmed Data : A Comparative Study
- arxiv url: http://arxiv.org/abs/2311.06898v1
- Date: Sun, 12 Nov 2023 17:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 16:32:07.571351
- Title: Retrieval and Generative Approaches for a Pregnancy Chatbot in Nepali
with Stemmed and Non-Stemmed Data : A Comparative Study
- Title(参考訳): ネパールにおけるstemmedデータとnon-stemmedデータを用いた妊娠チャットボットの検索と生成 : 比較研究
- Authors: Sujan Poudel, Nabin Ghimire, Bipesh Subedi, Saugat Singh
- Abstract要約: ネパール語のデータセットのパフォーマンスは、それぞれのアプローチで分析されている。
BERTをベースとした事前学習モデルでは,スクラッチトランスフォーマーモデルではスクラッチデータの性能が良好である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The field of Natural Language Processing which involves the use of artificial
intelligence to support human languages has seen tremendous growth due to its
high-quality features. Its applications such as language translation, chatbots,
virtual assistants, search autocomplete, and autocorrect are widely used in
various domains including healthcare, advertising, customer service, and target
advertising. To provide pregnancy-related information a health domain chatbot
has been proposed and this work explores two different NLP-based approaches for
developing the chatbot. The first approach is a multiclass classification-based
retrieval approach using BERTbased multilingual BERT and multilingual
DistilBERT while the other approach employs a transformer-based generative
chatbot for pregnancy-related information. The performance of both stemmed and
non-stemmed datasets in Nepali language has been analyzed for each approach.
The experimented results indicate that BERT-based pre-trained models perform
well on non-stemmed data whereas scratch transformer models have better
performance on stemmed data. Among the models tested the DistilBERT model
achieved the highest training and validation accuracy and testing accuracy of
0.9165 on the retrieval-based model architecture implementation on the
non-stemmed dataset. Similarly, in the generative approach architecture
implementation with transformer 1 gram BLEU and 2 gram BLEU scores of 0.3570
and 0.1413 respectively were achieved.
- Abstract(参考訳): 人間の言語をサポートするために人工知能を使用する自然言語処理の分野は、その高品質な特徴から、大きな成長を遂げている。
言語翻訳、チャットボット、バーチャルアシスタント、検索オートコンプリート、オートコレクトといった応用は、医療、広告、カスタマーサービス、ターゲット広告など様々な分野で広く利用されている。
健康ドメインチャットボットが提案されている妊娠関連情報を提供するため、本研究は2つの異なるnlpベースのチャットボットの開発方法を検討する。
第1のアプローチは、BERTに基づく多言語BERTと多言語DistilBERTを用いたマルチクラス分類に基づく検索手法である。
ネパール語におけるステムドデータセットと非ステムドデータセットのパフォーマンスを,それぞれのアプローチで分析した。
実験結果から,BERTをベースとした事前学習モデルでは,スクラッチトランスフォーマーモデルの方がステムデータでは良好な性能を示した。
DistilBERTモデルをテストしたモデルのうち、非学習データセット上の検索ベースモデルアーキテクチャの実装において、最高のトレーニングと検証の精度とテスト精度が0.9165に達した。
同様に、トランス1グラムBLEUと2グラムBLEUスコア0.3570と0.1413の生成的アプローチアーキテクチャ実装が達成された。
関連論文リスト
- Detecting Text Formality: A Study of Text Classification Approaches [78.11745751651708]
本研究は,統計的,ニューラルベース,トランスフォーマーベースの機械学習手法に基づく形式性検出手法の体系的研究を初めて行う。
単言語,多言語,言語横断の3種類の実験を行った。
本研究は,モノリンガルおよび多言語形式分類タスクのためのトランスフォーマーベースモデルに対するChar BiLSTMモデルの克服を示す。
論文 参考訳(メタデータ) (2022-04-19T16:23:07Z) - KinyaBERT: a Morphology-aware Kinyarwanda Language Model [1.2183405753834562]
教師なしサブワードトークン化法は、形態的にリッチな言語を扱うのに最適である。
本稿では, 形態素解析を応用し, 構造的構成性を明確に表現する, 単純かつ効果的な2層BERTアーキテクチャを提案する。
提案手法を低リソース形態素に富んだKinyaarwanda言語上で評価し,モデルアーキテクチャKinyaBERTを命名した。
論文 参考訳(メタデータ) (2022-03-16T08:36:14Z) - Neural Models for Offensive Language Detection [0.0]
攻撃的言語検出は、成長を続ける自然言語処理(NLP)アプリケーションである。
このような有害なコンテンツと戦うために、さまざまな機械学習モデルの改善と比較に貢献することが、この論文の重要な、挑戦的な目標である、と私たちは信じています。
論文 参考訳(メタデータ) (2021-05-30T13:02:45Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - Cross-lingual Information Retrieval with BERT [8.052497255948046]
本稿では、人気のある双方向言語モデルBERTを用いて、英語クエリと外国語文書の関係をモデル化し、学習する。
BERTに基づく深部関係マッチングモデルを導入し,教師の弱い事前学習多言語BERTモデルを微調整して訓練する。
短い英語クエリに対するリトアニア語文書の検索実験の結果、我々のモデルは有効であり、競争ベースラインのアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-04-24T23:32:13Z) - What the [MASK]? Making Sense of Language-Specific BERT Models [39.54532211263058]
本稿では,言語固有のBERTモデルにおける技術の現状について述べる。
本研究の目的は,言語固有のBERTモデルとmBERTモデルとの共通点と相違点について概説することである。
論文 参考訳(メタデータ) (2020-03-05T20:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。