Fugu-MT 論文翻訳(概要): Towards Zero-Shot Multilingual Synthetic Question and Answer Generation for Cross-Lingual Reading Comprehension

論文の概要: Towards Zero-Shot Multilingual Synthetic Question and Answer Generation for Cross-Lingual Reading Comprehension

arxiv url: http://arxiv.org/abs/2010.12008v3
Date: Fri, 28 May 2021 21:07:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-04 04:44:07.249589
Title: Towards Zero-Shot Multilingual Synthetic Question and Answer Generation for Cross-Lingual Reading Comprehension
Title（参考訳）: クロスリンガル読解のためのゼロショット多言語合成質問と回答生成に向けて
Authors: Siamak Shakeri, Noah Constant, Mihir Sanjay Kale, Linting Xue
Abstract要約: 本稿では,多言語質問と解答ペアを大規模に生成する簡単な方法を提案する。これらの合成サンプルは、ターゲット言語上の多言語QAモデルのゼロショット性能を改善するために使用できる。
参考スコア（独自算出の注目度）: 20.570539023748424
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a simple method to generate multilingual question and answer pairs on a large scale through the use of a single generative model. These synthetic samples can be used to improve the zero-shot performance of multilingual QA models on target languages. Our proposed multi-task training of the generative model only requires the labeled training samples in English, thus removing the need for such samples in the target languages, making it applicable to far more languages than those with labeled data. Human evaluations indicate the majority of such samples are grammatically correct and sensible. Experimental results show our proposed approach can achieve large gains on the XQuAD dataset, reducing the gap between zero-shot and supervised performance of smaller QA models on various languages.
Abstract（参考訳）: 本稿では,単一生成モデルを用いて,多言語質問と回答対を大規模に生成する簡易な手法を提案する。これらの合成サンプルは、ターゲット言語上の多言語QAモデルのゼロショット性能を改善するために使用できる。提案する生成モデルのマルチタスクトレーニングでは,英語のラベル付きトレーニングサンプルのみが必要となるため,対象言語でこのようなサンプルが不要になるため,ラベル付きデータを持つ言語よりもはるかに多くの言語に対応できる。人間の評価は、これらのサンプルの大多数が文法的に正確かつ合理的であることを示している。実験の結果,提案手法はXQuADデータセットにおいて大きなゲインを達成でき,様々な言語における小型QAモデルのゼロショットと教師付き性能の差を低減できることがわかった。

関連論文リスト

Multilingual Definition Modeling [1.9409995498330783]
私たちは4つの新言語(スペイン語、フランス語、ポルトガル語、ドイツ語)に単言語辞書データを使用します。このデータに微調整を施すと, 単文単語の定義モデル上で, 事前学習した多言語言語モデルの性能を検証した。結果から,多言語モデルでは英語のオンペア化が可能であるが,言語間相乗効果の可能性が示唆された。
論文参考訳（メタデータ） (2025-06-02T09:48:37Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
On the Applicability of Zero-Shot Cross-Lingual Transfer Learning for Sentiment Classification in Distant Language Pairs [0.0]
本研究では,XLM-R事前学習モデルを用いて,英語から日本語,インドネシア語への言語間移動学習の適用性を検討した。本モデルでは,日本語とインドネシア語のデータセットを対象言語を用いて訓練することなく,日本語とインドネシア語のデータセットに比較して最適な結果が得られる。
論文参考訳（メタデータ） (2024-12-24T05:50:18Z)
Scaling Laws for Multilingual Language Models [41.6318470003173]
多言語スケーリングの研究における主要な課題は、言語間移動による個々の言語性能の分析が困難であることである。本稿では,各言語群に対するクロスエントロピー損失が,それぞれのサンプリング比でのみ決定されるという仮説を導入し,検証する。性能とデータセットサイズ,モデルサイズ,サンプリング比率を関連づける,ゆるい関係を導出する。
論文参考訳（メタデータ） (2024-10-15T20:29:38Z)
Synergistic Approach for Simultaneous Optimization of Monolingual, Cross-lingual, and Multilingual Information Retrieval [5.446052898856584]
本稿では,モノリンガル,クロスリンガル,マルチリンガル設定におけるゼロショット検索性能を改善するためのハイブリッドバッチ学習手法を提案する。このアプローチは、データセットサイズに基づいてサンプリングされたモノリンガルとクロスリンガルの問合せ対のバッチを混合したマルチリンガル言語モデルを微調整する。
論文参考訳（メタデータ） (2024-08-20T04:30:26Z)
Reuse Your Rewards: Reward Model Transfer for Zero-Shot Cross-Lingual Alignment [39.94156255629528]
ゼロショット・クロスランガルアライメントのための簡単なアプローチを評価する。言語間の整列モデルは、非整列モデルよりも人間の方が好まれる。異なる言語報酬モデルでは、同言語報酬モデルよりも優れた整列モデルが得られることがある。
論文参考訳（メタデータ） (2024-04-18T16:52:36Z)
Multilingual Few-Shot Learning via Language Model Retrieval [18.465566186549072]
トランスフォーマーベースの言語モデルは、数ショットのインコンテキスト学習において顕著な成功を収めた。本研究は,意味論的に類似したショットサンプルを検索し,コンテキストとして利用する研究である。提案手法を,意図検出,質問分類,感情分析,話題分類に関連する5つの自然言語理解データセット上で評価した。
論文参考訳（メタデータ） (2023-06-19T14:27:21Z)
UniMax: Fairer and more Effective Language Sampling for Large-Scale Multilingual Pretraining [92.3702056505905]
我々は,尾語への過剰適合を軽減しつつ,より均一なヘッド言語カバレッジを提供する新しいサンプリング手法UniMaxを提案する。 We found that UniMax are outperforming standard temperature-based sample, and the benefit persistent as scale increased。
論文参考訳（メタデータ） (2023-04-18T17:45:50Z)
Multilingual Generative Language Models for Zero-Shot Cross-Lingual Event Argument Extraction [80.61458287741131]
ゼロショット言語間イベント引数抽出(EAE)における多言語事前学習型生成言語モデルの活用について検討する。 EAEを言語生成タスクとして定式化することにより、イベント構造を効果的にエンコードし、引数間の依存関係をキャプチャする。提案するモデルでは,多言語事前学習型生成言語モデルを用いて,入力文から抽出した引数で言語に依存しないテンプレートを補う文を生成する。
論文参考訳（メタデータ） (2022-03-15T23:00:32Z)
Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文参考訳（メタデータ） (2021-09-16T03:08:22Z)
Nearest Neighbour Few-Shot Learning for Cross-lingual Classification [2.578242050187029]
単純な近接数ショット(15サンプル)推論手法による言語間適応による分類作業提案手法は,少数のラベル付きサンプルのみを対象とする従来の微調整を継続的に改善する。
論文参考訳（メタデータ） (2021-09-06T03:18:23Z)
Comparison of Interactive Knowledge Base Spelling Correction Models for Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文参考訳（メタデータ） (2020-10-20T17:31:07Z)
Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文参考訳（メタデータ） (2020-10-18T00:21:53Z)
XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文参考訳（メタデータ） (2020-05-01T12:22:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。