論文の概要: End-to-End Natural Language Understanding Pipeline for Bangla
Conversational Agent
- arxiv url: http://arxiv.org/abs/2107.05541v1
- Date: Mon, 12 Jul 2021 16:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-13 17:47:11.188754
- Title: End-to-End Natural Language Understanding Pipeline for Bangla
Conversational Agent
- Title(参考訳): 会話エージェントのためのエンドツーエンド自然言語理解パイプライン
- Authors: Fahim Shahriar Khan, Mueeze Al Mushabbir, Mohammad Sabik Irbaz, MD
Abdullah Al Nasim
- Abstract要約: 本稿では,バングラ語とバングラ語でコミュニケーション可能なビジネスアシスタントを構築するための新しい手法を提案する。
Rasa Open Source Framework、fastText組み込み、Polyglot組み込み、Fraskなどのシステムをビルディングブロックとして使用しています。
本稿では,意図分類と実体抽出のためのパイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.43012765978447565
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Chatbots are intelligent software built to be used as a replacement for human
interaction. However, existing studies typically do not provide enough support
for low-resource languages like Bangla. Moreover, due to the increasing
popularity of social media, we can also see the rise of interactions in Bangla
transliteration (mostly in English) among the native Bangla speakers. In this
paper, we propose a novel approach to build a Bangla chatbot aimed to be used
as a business assistant which can communicate in Bangla and Bangla
Transliteration in English with high confidence consistently. Since annotated
data was not available for this purpose, we had to work on the whole machine
learning life cycle (data preparation, machine learning modeling, and model
deployment) using Rasa Open Source Framework, fastText embeddings, Polyglot
embeddings, Flask, and other systems as building blocks. While working with the
skewed annotated dataset, we try out different setups and pipelines to evaluate
which works best and provide possible reasoning behind the observed results.
Finally, we present a pipeline for intent classification and entity extraction
which achieves reasonable performance (accuracy: 83.02\%, precision: 80.82\%,
recall: 83.02\%, F1-score: 80\%).
- Abstract(参考訳): チャットボットは人間のインタラクションの代替として使用されるインテリジェントソフトウェアである。
しかしながら、既存の研究は通常、Banglaのような低リソース言語に対する十分なサポートを提供していない。
さらに、ソーシャルメディアの人気が高まっているため、バングラ語話者の間では、バングラ語の文字化(主に英語)の進展も見られる。
本稿では,バングラ語とバングラ語でコミュニケーションできるビジネスアシスタントとして,信頼度の高いバングラ語チャットボットを構築するための新しいアプローチを提案する。
アノテーション付きデータはこの目的には利用できなかったので、rasaオープンソースフレームワーク、fasttext embeddeds、polyglot embeddeds、flask、その他のシステムをビルディングブロックとして、機械学習ライフサイクル全体(データ準備、機械学習モデリング、モデルデプロイ)に取り組む必要がありました。
歪んだアノテートされたデータセットで作業しながら、観測結果の背後にある推論を提供するために、さまざまなセットアップとパイプラインを試します。
最後に,適切な性能を実現するインテント分類とエンティティ抽出のためのパイプラインを提案する(精度: 83.02\%,精度: 80.82\%,リコール: 83.02\%,f1-score: 80\%)。
関連論文リスト
- BanglaEmbed: Efficient Sentence Embedding Models for a Low-Resource Language Using Cross-Lingual Distillation Techniques [0.0]
この研究はバングラ語のための2つの軽量な文変換器を導入している。
この方法は、事前訓練されたハイパフォーマンスな英語文変換器からの知識を蒸留する。
新しい手法は既存のBangla文変換器を一貫して上回った。
論文 参考訳(メタデータ) (2024-11-22T13:03:25Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - On Evaluation of Bangla Word Analogies [0.8658596218544772]
本稿では,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。
世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。
論文 参考訳(メタデータ) (2023-04-10T14:27:35Z) - Baize: An Open-Source Chat Model with Parameter-Efficient Tuning on
Self-Chat Data [101.63682141248069]
ChatGPTのようなチャットモデルは印象的な機能を示しており、多くのドメインで急速に採用されている。
本稿では,ChatGPTを利用して,高品質なマルチターンチャットコーパスを自動生成するパイプラインを提案する。
我々は,オープンソースの大規模言語モデルであるLLaMAを強化するために,パラメータ効率のチューニングを用いる。
論文 参考訳(メタデータ) (2023-04-03T17:59:09Z) - Incongruity Detection between Bangla News Headline and Body Content
through Graph Neural Network [0.0]
ニュースの見出しと内容の一致は、読者を惹きつけるのに使用される詐欺の一般的な方法である。
本稿では,Banglaニュースの見出しとコンテンツ段落の類似性と矛盾を効果的に学習するグラフベースの階層型デュアルエンコーダモデルを提案する。
提案したBanglaグラフベースのニューラルネットワークモデルは,さまざまなBanglaニュースデータセットに対して90%以上の精度を実現する。
論文 参考訳(メタデータ) (2022-10-26T20:57:45Z) - BanglaParaphrase: A High-Quality Bangla Paraphrase Dataset [3.922582192616519]
そこで我々は,新しいフィルタパイプラインによって構築された高品質なBangla ParaphraseデータセットであるBanglaParaphraseを提案する。
我々は,BanglaParaphraseの導入を通じて,NLPドメインにおけるBangla言語の低リソース状態を軽減するための一歩を踏み出したい。
論文 参考訳(メタデータ) (2022-10-11T02:52:31Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding [1.7000879291900044]
私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
論文 参考訳(メタデータ) (2021-01-01T09:28:45Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - TextBrewer: An Open-Source Knowledge Distillation Toolkit for Natural
Language Processing [64.87699383581885]
自然言語処理のためのオープンソースの知識蒸留ツールキットTextBrewerを紹介する。
テキスト分類、読解、シーケンスラベリングなどの教師あり学習タスクをサポートする。
ケーススタディでは、TextBrewerを使用して、いくつかの典型的なNLPタスクでBERTを蒸留する。
論文 参考訳(メタデータ) (2020-02-28T09:44:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。