論文の概要: Extractive Question Answering on Queries in Hindi and Tamil
- arxiv url: http://arxiv.org/abs/2210.06356v1
- Date: Tue, 27 Sep 2022 00:40:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 16:27:20.452975
- Title: Extractive Question Answering on Queries in Hindi and Tamil
- Title(参考訳): ヒンディー語とタミル語における質問に対する抽出的回答
- Authors: Adhitya Thirumala, Elisa Ferracane
- Abstract要約: ヒンディー語やタミル語のような言語は、英語のような言語と比較して自然言語処理(NLP)の分野では不足している。
このプロジェクトの目的は、ヒンディー語とタミル語のパブリックデータセット上で、抽出質問回答(QA)タスクのための既存のモデルよりも優れたNLPモデルを構築することである。
- 参考スコア(独自算出の注目度): 2.66512000865131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indic languages like Hindi and Tamil are underrepresented in the natural
language processing (NLP) field compared to languages like English. Due to this
underrepresentation, performance on NLP tasks (such as search algorithms) in
Indic languages are inferior to their English counterparts. This difference
disproportionately affects those who come from lower socioeconomic statuses
because they consume the most Internet content in local languages. The goal of
this project is to build an NLP model that performs better than pre-existing
models for the task of extractive question-answering (QA) on a public dataset
in Hindi and Tamil. Extractive QA is an NLP task where answers to questions are
extracted from a corresponding body of text. To build the best solution, we
used three different models. The first model is an unmodified cross-lingual
version of the NLP model RoBERTa, known as XLM-RoBERTa, that is pretrained on
100 languages. The second model is based on the pretrained RoBERTa model with
an extra classification head for the question answering, but we used a custom
Indic tokenizer, then optimized hyperparameters and fine tuned on the Indic
dataset. The third model is based on XLM-RoBERTa, but with extra finetuning and
training on the Indic dataset. We hypothesize the third model will perform best
because of the variety of languages the XLM-RoBERTa model has been pretrained
on and the additional finetuning on the Indic dataset. This hypothesis was
proven wrong because the paired RoBERTa models performed the best as the
training data used was most specific to the task performed as opposed to the
XLM-RoBERTa models which had much data that was not in either Hindi or Tamil.
- Abstract(参考訳): ヒンディー語やタミル語のような言語は、英語のような言語と比較して自然言語処理(NLP)の分野では不足している。
この表現不足のため、Indic言語におけるNLPタスク(検索アルゴリズムなど)のパフォーマンスは、英語のタスクよりも劣っている。
この違いは、地域言語で最もインターネットのコンテンツを消費するため、低い社会経済的地位から来る人々に影響を与える。
このプロジェクトの目的は、ヒンディー語とタミル語の公共データセット上でqa(extractive question-answering)タスクのための既存のモデルよりも優れたnlpモデルを構築することである。
抽出QAは、対応するテキストから質問に対する回答を抽出するNLPタスクである。
最良のソリューションを構築するために、3つの異なるモデルを使いました。
最初のモデルは、XLM-RoBERTaとして知られるNLPモデルのRoBERTaの、修正されていない言語間バージョンで、100言語で事前訓練されている。
第2のモデルは、事前訓練されたRoBERTaモデルに基づいており、質問応答のための追加の分類ヘッドを備えているが、カスタムのIndicトークンライザを使用して、ハイパーパラメータを最適化し、Indicデータセットに微調整した。
3番目のモデルはXLM-RoBERTaをベースにしているが、Indicデータセットで追加の微調整とトレーニングを行う。
我々は,XLM-RoBERTaモデルが事前訓練された言語の種類と,Indicデータセットに付加的な微調整を加えることで,第3のモデルが最高の性能を示すと仮定する。
この仮説は、使用したトレーニングデータがヒンディー語やタミル語にはない多くのデータを持つXLM-RoBERTaモデルと対照的に実行されたタスクに最も特化しているため、ペアのRoBERTaモデルが最もうまく機能していたことが証明された。
関連論文リスト
- Question Translation Training for Better Multilingual Reasoning [113.5214494700372]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。
典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。
本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文 参考訳(メタデータ) (2024-01-15T16:39:10Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - A Comparative Study of Transformer-Based Language Models on Extractive
Question Answering [0.5079811885340514]
事前訓練された言語モデルをトレーニングし、複数の質問応答データセットでそれらを微調整する。
F1スコアを基準として、RoBERTaとBARTが事前トレーニングされたモデルは、すべてのデータセットで最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-10-07T02:23:19Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Learning Which Features Matter: RoBERTa Acquires a Preference for
Linguistic Generalizations (Eventually) [25.696099563130517]
我々はMSGS(Mixed Signals Generalization Set)と呼ばれる新しい英語診断セットを導入する。
MSGSは20のあいまいなバイナリ分類タスクから構成されており、事前訓練されたモデルが微調整中に言語的あるいは表面的な一般化を好むかどうかをテストするのに使用される。
我々は、RoBERTaモデルを100万語から10億語までのデータ量でスクラッチからプレトレーニングし、MSGS上でのパフォーマンスをRoBERTaベースと比較する。
モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすためには、はるかに多くのデータが必要である。
論文 参考訳(メタデータ) (2020-10-11T22:09:27Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。