論文の概要: ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual
Open-retrieval Question Answering System
- arxiv url: http://arxiv.org/abs/2205.14981v1
- Date: Mon, 30 May 2022 10:31:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:16:55.268712
- Title: ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual
Open-retrieval Question Answering System
- Title(参考訳): zusammenqa: 言語横断的質問応答システムのための特殊モデルによるデータ拡張
- Authors: Chia-Chien Hung, Tommaso Green, Robert Litschko, Tornike Tsereteli,
Sotaro Takeshita, Marco Bombieri, Goran Glava\v{s}, Simone Paolo Ponzetto
- Abstract要約: 本稿では,言語横断的オープン-検索質問応答(COQA)におけるMIA共有タスクを提案する。
この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、その質問の言語で回答を生成する必要がある。
データ拡張(Data Augmentation)、パッセージ検索(Passage Retrieval)、Answer Generation(Answer Generation)の3つの主要コンポーネントに対して、異なるモデル変種を組み合わせたいくつかのアプローチを考案した。
- 参考スコア(独自算出の注目度): 16.89747171947662
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces our proposed system for the MIA Shared Task on
Cross-lingual Open-retrieval Question Answering (COQA). In this challenging
scenario, given an input question the system has to gather evidence documents
from a multilingual pool and generate from them an answer in the language of
the question. We devised several approaches combining different model variants
for three main components: Data Augmentation, Passage Retrieval, and Answer
Generation. For passage retrieval, we evaluated the monolingual BM25 ranker
against the ensemble of re-rankers based on multilingual pretrained language
models (PLMs) and also variants of the shared task baseline, re-training it
from scratch using a recently introduced contrastive loss that maintains a
strong gradient signal throughout training by means of mixed negative samples.
For answer generation, we focused on language- and domain-specialization by
means of continued language model (LM) pretraining of existing multilingual
encoders. Additionally, for both passage retrieval and answer generation, we
augmented the training data provided by the task organizers with automatically
generated question-answer pairs created from Wikipedia passages to mitigate the
issue of data scarcity, particularly for the low-resource languages for which
no training data were provided. Our results show that language- and
domain-specialization as well as data augmentation help, especially for
low-resource languages.
- Abstract(参考訳): 本稿では,言語横断的オープン-検索質問応答(COQA)に関するMIA共有タスクを提案する。
この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、質問の言語で答えを生成する必要がある。
我々は,データ拡張,通路検索,回答生成という3つの主成分の異なるモデル変種を組み合わせる手法を考案した。
多言語事前学習言語モデル(PLM)と共有タスクベースラインの変種に基づいて、単言語BM25ランクラをランサーのアンサンブルに対して評価し、最近導入されたコントラッシブ・ロスを用いてスクラッチから再学習し、混合陰性サンプルを用いてトレーニングを通して強い勾配信号を維持する。
回答生成のために,既存の多言語エンコーダの継続言語モデル(LM)による言語とドメインの特殊化に着目した。
さらに, 文章検索と回答生成の両方において, wikipedia の文章から自動生成した質問・回答ペアを用いてタスクオーガナイザが提供する訓練データを拡張し, 学習データを提供していない低リソース言語におけるデータ不足の問題を軽減した。
この結果から,低リソース言語では,言語やドメイン特化やデータ拡張が有効であることがわかった。
関連論文リスト
- Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval [56.65147231836708]
SWIM-IRは, 微調整多言語高密度検索のための33言語を含む合成検索訓練データセットである。
SAPは、ターゲット言語における情報クエリの生成において、大きな言語モデル(LLM)を支援する。
我々のモデルはSWIM-Xと呼ばれ、人間に指示された高密度検索モデルと競合する。
論文 参考訳(メタデータ) (2023-11-10T00:17:10Z) - SEMQA: Semi-Extractive Multi-Source Question Answering [94.04430035121136]
本稿では,複数ソースを半抽出的に要約することで,複数の質問に答える新しいQAタスクを提案する。
この種の最初のデータセットであるQuoteSumを作成し、自然および生成された質問に対する人間による半抽出的な回答を提示する。
論文 参考訳(メタデータ) (2023-11-08T18:46:32Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - Bridging Cross-Lingual Gaps During Leveraging the Multilingual
Sequence-to-Sequence Pretraining for Text Generation [80.16548523140025]
プレトレインとファインチューンの間のギャップを埋めるために、コードスイッチングの復元タスクを追加して、バニラプレトレイン-ファインチューンパイプラインを拡張します。
提案手法は,言語間文表現距離を狭くし,簡単な計算コストで低周波語翻訳を改善する。
論文 参考訳(メタデータ) (2022-04-16T16:08:38Z) - One Question Answering Model for Many Languages with Cross-lingual Dense
Passage Retrieval [39.061900747689094]
CORAはクロスランガルなオープン・レトリーバル・アンサー・ジェネレーション・モデルである。
言語固有の注釈付きデータや知識ソースが利用できない場合でも、多くの言語で質問に答えることができる。
論文 参考訳(メタデータ) (2021-07-26T06:02:54Z) - GermanQuAD and GermanDPR: Improving Non-English Question Answering and
Passage Retrieval [2.5621280373733604]
我々は13,722組の抽出質問/回答ペアのデータセットである GermanQuAD を提示する。
GermanQuADで訓練された抽出QAモデルは、多言語モデルを大幅に上回る。
論文 参考訳(メタデータ) (2021-04-26T17:34:31Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - Multilingual Transfer Learning for QA Using Translation as Data
Augmentation [13.434957024596898]
我々は,多言語組込みを意味空間に近づけることで,言語間伝達を改善する戦略を検討する。
言語敵対的トレーニングと言語仲裁フレームワークという2つの新しい戦略を提案し、(ゼロリソースの)クロスリンガルトランスファーのパフォーマンスを大幅に改善します。
実験により,提案モデルは,最近導入された多言語MLQAデータセットとTyDiQAデータセットにおいて,以前のゼロショットベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-12-10T20:29:34Z) - Synthetic Data Augmentation for Zero-Shot Cross-Lingual Question
Answering [8.558954185502012]
付加的な注釈データを必要とすることなく,言語間質問応答性能を向上させる手法を提案する。
MLQA, XQuAD, SQuAD-it, PIAF (fr) の4つの多言語データセットに関する最新情報について報告する。
論文 参考訳(メタデータ) (2020-10-23T20:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。