Fugu-MT 論文翻訳(概要): QAmeleon: Multilingual QA with Only 5 Examples

論文の概要: QAmeleon: Multilingual QA with Only 5 Examples

arxiv url: http://arxiv.org/abs/2211.08264v1
Date: Tue, 15 Nov 2022 16:14:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-16 14:34:39.299344
Title: QAmeleon: Multilingual QA with Only 5 Examples
Title（参考訳）: QAmeleon: たった5つの例による多言語QA
Authors: Priyanka Agrawal, Chris Alberti, Fantine Huot, Joshua Maynez, Ji Ma, Sebastian Ruder, Kuzman Ganchev, Dipanjan Das, Mirella Lapata
Abstract要約: 数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
参考スコア（独自算出の注目度）: 71.80611036543633
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The availability of large, high-quality datasets has been one of the main drivers of recent progress in question answering (QA). Such annotated datasets however are difficult and costly to collect, and rarely exist in languages other than English, rendering QA technology inaccessible to underrepresented languages. An alternative to building large monolingual training datasets is to leverage pre-trained language models (PLMs) under a few-shot learning setting. Our approach, QAmeleon, uses a PLM to automatically generate multilingual data upon which QA models are trained, thus avoiding costly annotation. Prompt tuning the PLM for data synthesis with only five examples per language delivers accuracy superior to translation-based baselines, bridges nearly 60% of the gap between an English-only baseline and a fully supervised upper bound trained on almost 50,000 hand labeled examples, and always leads to substantial improvements compared to fine-tuning a QA model directly on labeled examples in low resource settings. Experiments on the TyDiQA-GoldP and MLQA benchmarks show that few-shot prompt tuning for data synthesis scales across languages and is a viable alternative to large-scale annotation.
Abstract（参考訳）: 大規模で高品質なデータセットの可用性は、質問応答(QA)の最近の進歩の主要な要因のひとつだ。しかし、このような注釈付きデータセットは収集が困難でコストがかかり、英語以外の言語にはほとんど存在しない。大きなモノリンガルトレーニングデータセット構築の代替として、数ショットの学習環境下で事前訓練された言語モデル(PLM)を活用する方法がある。我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルがトレーニングされたマルチ言語データを自動的に生成する。翻訳ベースのベースラインよりも精度が向上し、英語のみのベースラインと、約50,000のラベル付きサンプルでトレーニングされた上界とのギャップの60%近くを橋渡しし、リソース設定でラベル付きサンプルに直接qaモデルを微調整するよりも、常に大幅に改善される。 TyDiQA-GoldPとMLQAベンチマークの実験では、言語間でのデータ合成スケールのプロンプトチューニングがほとんどなく、大規模なアノテーションの代替となることが示されている。

関連論文リスト

Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。 JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文参考訳（メタデータ） (2025-05-28T11:06:54Z)
Few-Shot Multilingual Open-Domain QA from 5 Examples [44.04243892727856]
我々は,大規模言語モデル(LLM)から大規模多言語データを合成するためのemphfew-shot学習手法を提案する。提案手法はWikiDataを用いた大規模自己教師付き事前学習から始まり,LLMを数発の監視で生成した高品質な合成多言語データを訓練する。最終的なモデルである textscFsModQA は、MLODQA における既存の少数ショットベースラインと教師付きベースラインと、言語横断とモノリンガル検索を著しく上回る。
論文参考訳（メタデータ） (2025-02-27T03:24:57Z)
Cross-lingual Transfer for Automatic Question Generation by Learning Interrogative Structures in Target Languages [6.635572580071933]
本稿では,モノリンガル,並列,ラベル付きデータを対象言語で必要とせずに動作可能な,単純かつ効率的なXLT-QG法を提案する。提案手法は,GPT-3.5-turboに匹敵する性能を実現する。
論文参考訳（メタデータ） (2024-10-04T07:29:35Z)
MST5 -- Multilingual Question Answering over Knowledge Graphs [1.6470999044938401]
知識グラフ質問回答(KGQA)は、自然言語を用いたグラフベースモデルに格納された膨大な知識のクエリを単純化する。既存の多言語KGQAシステムは、英語システムに匹敵する性能を達成するための課題に直面している。本稿では,言語コンテキストとエンティティ情報を言語モデルの処理パイプラインに直接組み込むことで,多言語KGQAシステムを強化するための簡易なアプローチを提案する。
論文参考訳（メタデータ） (2024-07-08T15:37:51Z)
On the Calibration of Multilingual Question Answering LLMs [57.296161186129545]
複数の多言語大言語モデル(MLLM)のキャリブレーションを様々な質問応答タスクでベンチマークする。本研究では,分布内,分布外,言語間移動設定におけるキャリブレーションの異なる次元について検討する。 LlaMa2のようなデコーダのみのLLMでは、コンテキスト内学習は多言語データの信頼性校正を改善する。
論文参考訳（メタデータ） (2023-11-15T03:29:02Z)
PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文参考訳（メタデータ） (2023-04-24T15:46:26Z)
Efficiently Aligned Cross-Lingual Transfer Learning for Conversational Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文参考訳（メタデータ） (2023-04-03T18:46:01Z)
Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文参考訳（メタデータ） (2022-10-08T10:24:39Z)
MuCoT: Multilingual Contrastive Training for Question-Answering in Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。 Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文参考訳（メタデータ） (2022-04-12T13:52:54Z)
Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文参考訳（メタデータ） (2021-02-20T03:52:08Z)
Multilingual Transfer Learning for QA Using Translation as Data Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2020-12-10T20:29:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。