論文の概要: Question answering using deep learning in low resource Indian language
Marathi
- arxiv url: http://arxiv.org/abs/2309.15779v1
- Date: Wed, 27 Sep 2023 16:53:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 12:54:38.304078
- Title: Question answering using deep learning in low resource Indian language
Marathi
- Title(参考訳): 低資源インド語マラーティーにおけるディープラーニングを用いた質問応答
- Authors: Dhiraj Amin, Sharvari Govilkar, Sagar Kulkarni
- Abstract要約: 本稿では,読解理解に基づく質問応答システムを構築するためのトランスフォーマーモデルについて検討する。
EMスコアが0.64、F1スコアが0.74のMuRIL多言語モデルでは、マラシデータセット上でモデルを微調整することで、最良の精度を得ることができた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Precise answers are extracted from a text for a given input question in a
question answering system. Marathi question answering system is created in
recent studies by using ontology, rule base and machine learning based
approaches. Recently transformer models and transfer learning approaches are
used to solve question answering challenges. In this paper we investigate
different transformer models for creating a reading comprehension-based Marathi
question answering system. We have experimented on different pretrained Marathi
language multilingual and monolingual models like Multilingual Representations
for Indian Languages (MuRIL), MahaBERT, Indic Bidirectional Encoder
Representations from Transformers (IndicBERT) and fine-tuned it on a Marathi
reading comprehension-based data set. We got the best accuracy in a MuRIL
multilingual model with an EM score of 0.64 and F1 score of 0.74 by fine tuning
the model on the Marathi dataset.
- Abstract(参考訳): 質問応答システムにおいて、所定の入力質問に対するテキストから正確な回答を抽出する。
marathiの質問応答システムは、オントロジー、ルールベース、機械学習に基づくアプローチを用いて最近の研究で作成されている。
近年,質問応答問題の解決にトランスフォーマーモデルやトランスファーラーニングアプローチが用いられている。
本稿では,読み理解に基づくマラーティー質問応答システムを構築するためのトランスフォーマモデルについて検討する。
インド語多言語表現(MuRIL)、MahaBERT(MahaBERT)、Indic Bidirectional Encoder Representations from Transformers(IndicBERT)などの事前訓練されたマラタイ語多言語モデルとモノリンガルモデルについて実験を行い、マラタイ語の理解に基づくデータセットを微調整した。
EMスコアが0.64、F1スコアが0.74のMuRIL多言語モデルでは、マラシデータセット上でモデルを微調整することで、最良の精度を得た。
関連論文リスト
- MahaSQuAD: Bridging Linguistic Divides in Marathi Question-Answering [0.4194295877935868]
この研究は、低リソース言語における効率的なQnAデータセットの欠如のギャップを埋めようとしている。
118,516のトレーニング、11,873のバリデーション、11,803のテストサンプルからなる、Indic言語Marathiのための最初の完全なSQuADデータセットであるMahaSQuADを紹介した。
論文 参考訳(メタデータ) (2024-04-20T12:16:35Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Mono vs Multilingual BERT for Hate Speech Detection and Text
Classification: A Case Study in Marathi [0.966840768820136]
マラーティー語に焦点をあて、ヘイトスピーチの検出、感情分析、マラティー語における単純なテキスト分類のためのデータセットのモデルを評価する。
我々は,mBERT,indicBERT,xlm-RoBERTaなどの標準多言語モデルを用い,MahaBERT,MahaALBERT,MahaRoBERTaと比較した。
単言語MahaBERTをベースとしたモデルでは,多言語からの文の埋め込みに比べて表現が豊富であることを示す。
論文 参考訳(メタデータ) (2022-04-19T05:07:58Z) - Hate and Offensive Speech Detection in Hindi and Marathi [0.0]
それでもヘイトと攻撃的な音声検出は、データの入手が不十分なため、課題に直面している。
本研究では,ヒンディー語文とマラタイ語文のヘイトと攻撃的な音声検出について考察する。
CNNやLSTM,多言語BERT,IndicBERT,モノリンガルRoBERTaといったBERTのバリエーションなど,さまざまなディープラーニングアーキテクチャについて検討する。
我々は,変換器をベースとしたモデルが,FastText埋め込みとともに基本モデルでも最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-10-23T11:57:36Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - Experimental Evaluation of Deep Learning models for Marathi Text
Classification [0.0]
CNN, LSTM, ULMFiT, BERT ベースのモデルを, 2つの公開 Marathi テキスト分類データセットで評価する。
CNNとLSTMに基づく基本単層モデルとFastTextの埋め込みは、利用可能なデータセット上でBERTベースのモデルと同等に動作することを示す。
論文 参考訳(メタデータ) (2021-01-13T06:21:27Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Pre-training Multilingual Neural Machine Translation by Leveraging
Alignment Information [72.2412707779571]
mRASPは、汎用多言語ニューラルマシン翻訳モデルを事前訓練するためのアプローチである。
我々は,低,中,豊かな資源を含む多種多様な環境における42の翻訳方向の実験を行い,エキゾチックな言語対への変換を行った。
論文 参考訳(メタデータ) (2020-10-07T03:57:54Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。