論文の概要: Cross-Lingual QA as a Stepping Stone for Monolingual Open QA in
Icelandic
- arxiv url: http://arxiv.org/abs/2207.01918v1
- Date: Tue, 5 Jul 2022 09:52:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 23:52:54.520659
- Title: Cross-Lingual QA as a Stepping Stone for Monolingual Open QA in
Icelandic
- Title(参考訳): アイスランドにおけるモノリンガルオープンQAのためのステッピングストーンとしての言語横断QA
- Authors: V\'esteinn Sn{\ae}bjarnarson and Hafsteinn Einarsson
- Abstract要約: 英語以外の言語に対して効果的な質問応答(オープンQA)システムを構築することは困難である。
本稿では、そのようなシステムを英語以外の言語でブートストラップする方法を提案する。
我々のアプローチでは、機械翻訳データと少なくともバイリンガル言語モデルとともに、与えられた言語における限られたQAリソースしか必要としません。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: It can be challenging to build effective open question answering (open QA)
systems for languages other than English, mainly due to a lack of labeled data
for training. We present a data efficient method to bootstrap such a system for
languages other than English. Our approach requires only limited QA resources
in the given language, along with machine-translated data, and at least a
bilingual language model. To evaluate our approach, we build such a system for
the Icelandic language and evaluate performance over trivia style datasets. The
corpora used for training are English in origin but machine translated into
Icelandic. We train a bilingual Icelandic/English language model to embed
English context and Icelandic questions following methodology introduced with
DensePhrases (Lee et al., 2021). The resulting system is an open domain
cross-lingual QA system between Icelandic and English. Finally, the system is
adapted for Icelandic only open QA, demonstrating how it is possible to
efficiently create an open QA system with limited access to curated datasets in
the language of interest.
- Abstract(参考訳): 英語以外の言語に対して効果的なオープン質問応答(オープンQA)システムを構築するのは、主にトレーニング用のラベル付きデータがないため困難である。
本稿では,このようなシステムを英語以外の言語でブートストラップするデータ効率の良い手法を提案する。
我々のアプローチは、機械翻訳データと少なくともバイリンガル言語モデルとともに、与えられた言語における限られたQAリソースのみを必要とする。
このアプローチを評価するために,アイスランド語用システムを構築し,triviaスタイルのデータセットに対する性能評価を行った。
訓練に用いられるコーパスは英語であるが、機械はアイスランド語に翻訳される。
我々は、DensePhrases(Lee et al., 2021)で導入された方法論に従って、バイリンガルなアイスランド語/英語の言語モデルをトレーニングし、英語の文脈とアイスランド語の質問を埋め込む。
その結果生まれたシステムは、アイスランド語と英語の間のオープンドメインクロスリンガルqaシステムである。
最後に、このシステムはアイスランドのオープンQAのみに適応し、興味のある言語でキュレートされたデータセットへのアクセスを制限されたオープンQAシステムを効率的に作成する方法を示す。
関連論文リスト
- MST5 -- Multilingual Question Answering over Knowledge Graphs [1.6470999044938401]
知識グラフ質問回答(KGQA)は、自然言語を用いたグラフベースモデルに格納された膨大な知識のクエリを単純化する。
既存の多言語KGQAシステムは、英語システムに匹敵する性能を達成するための課題に直面している。
本稿では,言語コンテキストとエンティティ情報を言語モデルの処理パイプラインに直接組み込むことで,多言語KGQAシステムを強化するための簡易なアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-08T15:37:51Z) - Datasets for Multilingual Answer Sentence Selection [59.28492975191415]
ヨーロッパ5言語(フランス語、ドイツ語、イタリア語、ポルトガル語、スペイン語)でAS2のための新しい高品質データセットを導入する。
その結果、我々のデータセットは、堅牢で強力な多言語AS2モデルを作成する上で重要なものであることが示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:50:29Z) - Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。
本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。
私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文 参考訳(メタデータ) (2024-04-26T11:46:05Z) - Building Efficient and Effective OpenQA Systems for Low-Resource Languages [17.64851283209797]
低コストで効率的な OpenQA システムを低リソース環境向けに開発できることを示す。
主な要素は、機械翻訳されたラベル付きデータセットと関連する非構造化知識ソースを用いた、弱い監視である。
我々は,SQuAD2.0の機械翻訳であるSQuAD-TRを提案する。
論文 参考訳(メタデータ) (2024-01-07T22:11:36Z) - AfriQA: Cross-lingual Open-Retrieval Question Answering for African
Languages [18.689806554953236]
XOR QAシステムは、母国語の人々に仕えながら、他言語からの回答内容を検索する。
AfriQAはアフリカ言語に焦点を当てた最初の言語間QAデータセットです。
AfriQAには10言語にわたる12,000以上のXOR QAサンプルが含まれている。
論文 参考訳(メタデータ) (2023-05-11T15:34:53Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z) - Investigating Post-pretraining Representation Alignment for
Cross-Lingual Question Answering [20.4489424966613]
言語間質問応答システムにおける多言語事前学習言語モデルの能力について検討する。
言語間の表現をポストホックな微調整のステップで明示的に整合させると、一般的にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-09-24T15:32:45Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。