論文の概要: MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages
- arxiv url: http://arxiv.org/abs/2204.05814v1
- Date: Tue, 12 Apr 2022 13:52:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-13 11:41:19.357815
- Title: MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages
- Title(参考訳): MuCoT:低リソース言語における質問応答のための多言語コントラストトレーニング
- Authors: Gokul Karthik Kumar, Abhishek Singh Gehlot, Sahal Shaji Mullappilly,
Karthik Nandakumar
- Abstract要約: マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
- 参考スコア(独自算出の注目度): 4.433842217026879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accuracy of English-language Question Answering (QA) systems has improved
significantly in recent years with the advent of Transformer-based models
(e.g., BERT). These models are pre-trained in a self-supervised fashion with a
large English text corpus and further fine-tuned with a massive English QA
dataset (e.g., SQuAD). However, QA datasets on such a scale are not available
for most of the other languages. Multi-lingual BERT-based models (mBERT) are
often used to transfer knowledge from high-resource languages to low-resource
languages. Since these models are pre-trained with huge text corpora containing
multiple languages, they typically learn language-agnostic embeddings for
tokens from different languages. However, directly training an mBERT-based QA
system for low-resource languages is challenging due to the paucity of training
data. In this work, we augment the QA samples of the target language using
translation and transliteration into other languages and use the augmented data
to fine-tune an mBERT-based QA model, which is already pre-trained in English.
Experiments on the Google ChAII dataset show that fine-tuning the mBERT model
with translations from the same language family boosts the question-answering
performance, whereas the performance degrades in the case of cross-language
families. We further show that introducing a contrastive loss between the
translated question-context feature pairs during the fine-tuning process,
prevents such degradation with cross-lingual family translations and leads to
marginal improvement. The code for this work is available at
https://github.com/gokulkarthik/mucot.
- Abstract(参考訳): 英語質問回答システム(QA)の精度は、Transformerベースのモデル(例えばBERT)の出現により、近年大幅に改善されている。
これらのモデルは、大きな英語のテキストコーパスを持つ自己教師型で事前訓練され、さらに大規模な英語のQAデータセット(SQuADなど)で微調整される。
しかし、そのようなスケールでのQAデータセットは他のほとんどの言語では利用できない。
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
これらのモデルは、複数の言語を含む巨大なテキストコーパスで事前訓練されているため、通常、異なる言語からのトークンに対する言語に依存しない埋め込みを学ぶ。
しかし,mBERTをベースとした低リソース言語向けQAシステムを直接トレーニングすることは,トレーニングデータの正確さから困難である。
本研究では、他の言語への翻訳と翻訳を用いて対象言語のQAサンプルを増補し、拡張データを用いてmBERTベースのQAモデルを微調整する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上する一方で、クロス言語ファミリーではパフォーマンスが低下することが示された。
さらに, 微調整過程において, 翻訳された質問・文脈特徴対の対比的損失を導入することで, 言語間変換による劣化を防止し, 限界改善につながることを示す。
この作業のコードはhttps://github.com/gokulkarthik/mucotで入手できる。
関連論文リスト
- Zero-shot Cross-lingual Transfer without Parallel Corpus [6.937772043639308]
本稿では,事前学習モデルを用いてゼロショット言語間移動を行う手法を提案する。
タスク関連のバイリンガル情報アライメントを適用するバイリンガルタスクフィッティングモジュールで構成されている。
自己学習モジュールは、ラベルのないデータに対して擬似ソフトおよびハードラベルを生成し、それを利用して自己学習を行う。
論文 参考訳(メタデータ) (2023-10-07T07:54:22Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。