Fugu-MT 論文翻訳(概要): Extractive Question Answering on Queries in Hindi and Tamil

論文の概要: Extractive Question Answering on Queries in Hindi and Tamil

arxiv url: http://arxiv.org/abs/2210.06356v1
Date: Tue, 27 Sep 2022 00:40:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-16 16:27:20.452975
Title: Extractive Question Answering on Queries in Hindi and Tamil
Title（参考訳）: ヒンディー語とタミル語における質問に対する抽出的回答
Authors: Adhitya Thirumala, Elisa Ferracane
Abstract要約: ヒンディー語やタミル語のような言語は、英語のような言語と比較して自然言語処理(NLP)の分野では不足している。このプロジェクトの目的は、ヒンディー語とタミル語のパブリックデータセット上で、抽出質問回答(QA)タスクのための既存のモデルよりも優れたNLPモデルを構築することである。
参考スコア（独自算出の注目度）: 2.66512000865131
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Indic languages like Hindi and Tamil are underrepresented in the natural language processing (NLP) field compared to languages like English. Due to this underrepresentation, performance on NLP tasks (such as search algorithms) in Indic languages are inferior to their English counterparts. This difference disproportionately affects those who come from lower socioeconomic statuses because they consume the most Internet content in local languages. The goal of this project is to build an NLP model that performs better than pre-existing models for the task of extractive question-answering (QA) on a public dataset in Hindi and Tamil. Extractive QA is an NLP task where answers to questions are extracted from a corresponding body of text. To build the best solution, we used three different models. The first model is an unmodified cross-lingual version of the NLP model RoBERTa, known as XLM-RoBERTa, that is pretrained on 100 languages. The second model is based on the pretrained RoBERTa model with an extra classification head for the question answering, but we used a custom Indic tokenizer, then optimized hyperparameters and fine tuned on the Indic dataset. The third model is based on XLM-RoBERTa, but with extra finetuning and training on the Indic dataset. We hypothesize the third model will perform best because of the variety of languages the XLM-RoBERTa model has been pretrained on and the additional finetuning on the Indic dataset. This hypothesis was proven wrong because the paired RoBERTa models performed the best as the training data used was most specific to the task performed as opposed to the XLM-RoBERTa models which had much data that was not in either Hindi or Tamil.
Abstract（参考訳）: ヒンディー語やタミル語のような言語は、英語のような言語と比較して自然言語処理(NLP)の分野では不足している。この表現不足のため、Indic言語におけるNLPタスク(検索アルゴリズムなど)のパフォーマンスは、英語のタスクよりも劣っている。この違いは、地域言語で最もインターネットのコンテンツを消費するため、低い社会経済的地位から来る人々に影響を与える。このプロジェクトの目的は、ヒンディー語とタミル語の公共データセット上でqa(extractive question-answering)タスクのための既存のモデルよりも優れたnlpモデルを構築することである。抽出QAは、対応するテキストから質問に対する回答を抽出するNLPタスクである。最良のソリューションを構築するために、3つの異なるモデルを使いました。最初のモデルは、XLM-RoBERTaとして知られるNLPモデルのRoBERTaの、修正されていない言語間バージョンで、100言語で事前訓練されている。第2のモデルは、事前訓練されたRoBERTaモデルに基づいており、質問応答のための追加の分類ヘッドを備えているが、カスタムのIndicトークンライザを使用して、ハイパーパラメータを最適化し、Indicデータセットに微調整した。 3番目のモデルはXLM-RoBERTaをベースにしているが、Indicデータセットで追加の微調整とトレーニングを行う。我々は,XLM-RoBERTaモデルが事前訓練された言語の種類と,Indicデータセットに付加的な微調整を加えることで,第3のモデルが最高の性能を示すと仮定する。この仮説は、使用したトレーニングデータがヒンディー語やタミル語にはない多くのデータを持つXLM-RoBERTaモデルと対照的に実行されたタスクに最も特化しているため、ペアのRoBERTaモデルが最もうまく機能していたことが証明された。

関連論文リスト

Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。低リソースのアフリカ言語にLLMを適用する方法について検討する。アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文参考訳（メタデータ） (2025-04-09T02:25:53Z)
HindiLLM: Large Language Model for Hindi [0.09363323206192666]
我々はヒンディー語のための2つの自己回帰型大規模言語モデル(LLM)を事前訓練した。教師なし事前学習と教師付き微調整を含む2段階のプロセスを用いる。評価の結果,HindiLLMをベースとした微調整モデルでは,言語関連タスクの大部分において,いくつかのモデルよりも優れていた。
論文参考訳（メタデータ） (2024-12-29T05:28:15Z)
Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文参考訳（メタデータ） (2024-10-04T16:26:12Z)
Benchmarking Pre-trained Large Language Models' Potential Across Urdu NLP tasks [0.9786690381850356]
多言語データで事前訓練されたLarge Language Models (LLMs)は、自然言語処理の研究に革命をもたらした。本研究では,15のUrduデータセットを用いて,14のタスクにまたがる顕著なLLMの詳細な検討を行った。実験の結果、SOTAモデルはゼロショット学習を伴う全てのUrdu NLPタスクにおいて、エンコーダ-デコーダ事前訓練された言語モデルを上回ることがわかった。
論文参考訳（メタデータ） (2024-05-24T11:30:37Z)
Question Translation Training for Better Multilingual Reasoning [108.10066378240879]
大規模言語モデルは推論タスクにおいて魅力的なパフォーマンスを示すが、英語以外の言語ではより悪いパフォーマンスを示す傾向がある。典型的な解決策は、命令データを興味のあるすべての言語に翻訳し、結果の多言語データをトレーニングすることである。本稿では,X- English parallel question dataを微調整することで,推論する質問を英語に翻訳するモデルを訓練する。
論文参考訳（メタデータ） (2024-01-15T16:39:10Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
A Comparative Study of Transformer-Based Language Models on Extractive Question Answering [0.5079811885340514]
事前訓練された言語モデルをトレーニングし、複数の質問応答データセットでそれらを微調整する。 F1スコアを基準として、RoBERTaとBARTが事前トレーニングされたモデルは、すべてのデータセットで最高のパフォーマンスを発揮します。
論文参考訳（メタデータ） (2021-10-07T02:23:19Z)
Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文参考訳（メタデータ） (2021-02-20T03:52:08Z)
Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文参考訳（メタデータ） (2020-12-18T15:53:50Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
Learning Which Features Matter: RoBERTa Acquires a Preference for Linguistic Generalizations (Eventually) [25.696099563130517]
我々はMSGS(Mixed Signals Generalization Set)と呼ばれる新しい英語診断セットを導入する。 MSGSは20のあいまいなバイナリ分類タスクから構成されており、事前訓練されたモデルが微調整中に言語的あるいは表面的な一般化を好むかどうかをテストするのに使用される。我々は、RoBERTaモデルを100万語から10億語までのデータ量でスクラッチからプレトレーニングし、MSGS上でのパフォーマンスをRoBERTaベースと比較する。モデルは事前学習したデータで言語的特徴を表現することができるが、言語的な一般化を表わすためには、はるかに多くのデータが必要である。
論文参考訳（メタデータ） (2020-10-11T22:09:27Z)
WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文参考訳（メタデータ） (2020-06-02T11:57:53Z)
ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。 ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文参考訳（メタデータ） (2020-05-26T05:05:32Z)
TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。 TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文参考訳（メタデータ） (2020-05-17T17:26:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。