論文の概要: Intent Detection and Slot Filling for Home Assistants: Dataset and
Analysis for Bangla and Sylheti
- arxiv url: http://arxiv.org/abs/2310.10935v1
- Date: Tue, 17 Oct 2023 02:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 18:02:08.361014
- Title: Intent Detection and Slot Filling for Home Assistants: Dataset and
Analysis for Bangla and Sylheti
- Title(参考訳): ホームアシスタントのインテント検出とスロットフィリング:BanglaとSylhetiのデータセットと解析
- Authors: Fardin Ahsan Sakib, A H M Rezaul Karim, Saadat Hasan Khan, Md
Mushfiqur Rahman
- Abstract要約: 本研究は,Bangla,Colloquial Bangla,Sylheti言語における意図検出とスロット充填のための包括的データセットを初めて紹介する。
GPT-3.5モデルは、意図検出で0.94点、口語バングラのスロットフィリングで0.51点という印象的なF1スコアを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As voice assistants cement their place in our technologically advanced
society, there remains a need to cater to the diverse linguistic landscape,
including colloquial forms of low-resource languages. Our study introduces the
first-ever comprehensive dataset for intent detection and slot filling in
formal Bangla, colloquial Bangla, and Sylheti languages, totaling 984 samples
across 10 unique intents. Our analysis reveals the robustness of large language
models for tackling downstream tasks with inadequate data. The GPT-3.5 model
achieves an impressive F1 score of 0.94 in intent detection and 0.51 in slot
filling for colloquial Bangla.
- Abstract(参考訳): 音声アシスタントが技術的に先進的な社会においてその地位を固めるにつれ、低リソース言語の口語形式を含む多様な言語景観に対応する必要がある。
本研究は,10種類のインテントに対して計984のサンプルを収集し,インテント検出とスロットフィリングのための最初の包括的データセットを提案する。
分析の結果,下流タスクに不適切なデータで対処するための大規模言語モデルの堅牢性を明らかにした。
GPT-3.5モデルは、意図検出で0.94点、口語バングラで0.51点のスロットフィリングを達成している。
関連論文リスト
- BongLLaMA: LLaMA for Bangla Language [0.0]
BongLLaMAは、大規模なBanglaコーパスと命令チューニングデータセットにのみ焦点を絞った、オープンソースの大規模言語モデルである。
BLPタスクにおけるBongLLaMAの有用性を示すため,本手法,データ拡張手法,微調整の詳細,総合的なベンチマーク結果を提案する。
論文 参考訳(メタデータ) (2024-10-28T16:44:02Z) - FinGPT: Large Generative Models for a Small Language [48.46240937758779]
我々は、世界の人口の0.1%未満で話されるフィンランド語のための大きな言語モデル(LLM)を作成します。
我々は、FinGPTと呼ばれる7つの単言語モデル(186Mから13Bパラメータ)をスクラッチからトレーニングする。
我々は、元のトレーニングデータとフィンランド語を混合した多言語BLOOMモデルの事前訓練を継続し、その結果、176億のパラメータモデルをBLUUMIと呼ぶ。
論文 参考訳(メタデータ) (2023-11-03T08:05:04Z) - BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models
for Sentiment Analysis of Bangla Social Media Posts [0.46040036610482665]
本稿では,BLPワークショップ第2タスク(Bangla Social Media Posts の感性分析)について紹介する。
我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。
テストセットで67.02%のマイクロF1を取得し、この共有タスクのパフォーマンスをリーダーボードで21にランク付けする。
論文 参考訳(メタデータ) (2023-10-13T16:46:38Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - On Evaluation of Bangla Word Analogies [0.8658596218544772]
本稿では,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。
世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。
論文 参考訳(メタデータ) (2023-04-10T14:27:35Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - End-to-End Natural Language Understanding Pipeline for Bangla
Conversational Agents [0.43012765978447565]
本稿では,バングラ語とバングラ語でコミュニケーション可能なビジネスアシスタントを構築するための新しい手法を提案する。
Rasa Open Source Framework、fastText組み込み、Polyglot組み込み、Fraskなどのシステムをビルディングブロックとして使用しています。
本稿では,意図分類と実体抽出のためのパイプラインを提案する。
論文 参考訳(メタデータ) (2021-07-12T16:09:22Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding [1.7000879291900044]
私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
論文 参考訳(メタデータ) (2021-01-01T09:28:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。