論文の概要: M2QA: Multi-domain Multilingual Question Answering
- arxiv url: http://arxiv.org/abs/2407.01091v1
- Date: Mon, 1 Jul 2024 08:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 22:19:31.932979
- Title: M2QA: Multi-domain Multilingual Question Answering
- Title(参考訳): M2QA:マルチドメイン多言語質問回答
- Authors: Leon Engländer, Hannah Sterz, Clifton Poth, Jonas Pfeiffer, Ilia Kuznetsov, Iryna Gurevych,
- Abstract要約: 入力変動に対する一般化と堅牢性は、機械学習研究の核となるデシダータである。
マルチドメイン多言語質問応答ベンチマークであるM2QAを紹介する。
M2QAには、ドイツ語、トルコ語、中国語で13500のSQuAD 2.0スタイルの質問応答インスタンスが含まれている。
- 参考スコア(独自算出の注目度): 63.191474328757366
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generalization and robustness to input variation are core desiderata of machine learning research. Language varies along several axes, most importantly, language instance (e.g. French) and domain (e.g. news). While adapting NLP models to new languages within a single domain, or to new domains within a single language, is widely studied, research in joint adaptation is hampered by the lack of evaluation datasets. This prevents the transfer of NLP systems from well-resourced languages and domains to non-dominant language-domain combinations. To address this gap, we introduce M2QA, a multi-domain multilingual question answering benchmark. M2QA includes 13,500 SQuAD 2.0-style question-answer instances in German, Turkish, and Chinese for the domains of product reviews, news, and creative writing. We use M2QA to explore cross-lingual cross-domain performance of fine-tuned models and state-of-the-art LLMs and investigate modular approaches to domain and language adaptation. We witness 1) considerable performance variations across domain-language combinations within model classes and 2) considerable performance drops between source and target language-domain combinations across all model sizes. We demonstrate that M2QA is far from solved, and new methods to effectively transfer both linguistic and domain-specific information are necessary. We make M2QA publicly available at https://github.com/UKPLab/m2qa.
- Abstract(参考訳): 入力変動に対する一般化と堅牢性は、機械学習研究の核となるデシダータである。
言語はいくつかの軸に沿って変化し、最も重要なのは、言語インスタンス(eg French)とドメイン(eg news)である。
1つのドメイン内の新しい言語や1つの言語内の新しいドメインにNLPモデルを適応させることは、広く研究されているが、共同適応の研究は評価データセットの欠如によって妨げられている。
これにより、NLPシステムは、十分なリソースを持つ言語やドメインから、非支配的な言語とドメインの組み合わせに移行することができない。
このギャップに対処するため,マルチドメイン多言語質問応答ベンチマークであるM2QAを導入する。
M2QAには、ドイツ語、トルコ語、中国語で13500のSQuAD 2.0スタイルの質問応答インスタンスが含まれている。
我々は、M2QAを用いて、細調整されたモデルと最先端のLLMの言語間クロスドメイン性能を探索し、ドメインおよび言語適応に対するモジュラーアプローチについて検討する。
目撃者
1)モデルクラス内のドメイン言語の組み合わせと性能のかなりの変動
2) 全てのモデルサイズでソースとターゲット言語ドメインの組み合わせのパフォーマンスが大幅に低下する。
我々は,M2QAが解決には程遠いことを実証し,言語情報とドメイン固有情報の両方を効果的に転送する新しい方法が必要であることを示した。
M2QAをhttps://github.com/UKPLab/m2qa.comで公開しています。
関連論文リスト
- Mitigating Data Imbalance and Representation Degeneration in
Multilingual Machine Translation [103.90963418039473]
Bi-ACLは、MNMTモデルの性能を向上させるために、ターゲット側モノリンガルデータとバイリンガル辞書のみを使用するフレームワークである。
Bi-ACLは、長い尾の言語でも、高リソースの言語でも、より効果的であることを示す。
論文 参考訳(メタデータ) (2023-05-22T07:31:08Z) - Learning to Answer Multilingual and Code-Mixed Questions [4.290420179006601]
質問応答(QA)は、人間とコンピュータのシームレスな相互作用において重要な要素である。
もっとも古い研究分野の1つであるにもかかわらず、現在のQAシステムは多言語クエリを扱う上で重要な課題に直面している。
この論文は、多言語環境でエンドユーザクエリを扱うためのQA技術の進歩に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-14T16:49:58Z) - $m^4Adapter$: Multilingual Multi-Domain Adaptation for Machine
Translation with a Meta-Adapter [128.69723410769586]
多言語ニューラルネットワーク翻訳モデル(MNMT)は、ドメインと言語ペアのデータに基づいて評価すると、最先端の性能が得られる。
ドメインシフトや新しい言語ペアへの変換にMNMTモデルを使用すると、パフォーマンスが劇的に低下する。
我々はメタラーニングとアダプタを用いたドメイン知識と言語知識を組み合わせた$m4Adapter$を提案する。
論文 参考訳(メタデータ) (2022-10-21T12:25:05Z) - Multilingual Domain Adaptation for NMT: Decoupling Language and Domain
Information with Adapters [66.7986513246294]
機械翻訳の文脈における言語とドメインアダプタの構成性について検討する。
部分的なリソースのシナリオでは、ドメイン固有のアダプタと言語固有のアダプタの組み合わせは、しばしば欠落した言語を破滅的に忘れてしまう。
論文 参考訳(メタデータ) (2021-10-18T18:55:23Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。