論文の概要: MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages
- arxiv url: http://arxiv.org/abs/2207.00758v1
- Date: Sat, 2 Jul 2022 06:54:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 10:18:01.813888
- Title: MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages
- Title(参考訳): MIA 2022 共用課題:16の多言語に対する言語横断的オープン検索質問応答の評価
- Authors: Akari Asai, Shayne Longpre, Jungo Kasai, Chia-Hsuan Lee, Rui Zhang,
Junjie Hu, Ikuya Yamada, Jonathan H. Clark, Eunsol Choi
- Abstract要約: 16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
- 参考スコア(独自算出の注目度): 54.002969723086075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the results of the Workshop on Multilingual Information Access
(MIA) 2022 Shared Task, evaluating cross-lingual open-retrieval question
answering (QA) systems in 16 typologically diverse languages. In this task, we
adapted two large-scale cross-lingual open-retrieval QA datasets in 14
typologically diverse languages, and newly annotated open-retrieval QA data in
2 underrepresented languages: Tagalog and Tamil. Four teams submitted their
systems. The best system leveraging iteratively mined diverse negative examples
and larger pretrained models achieves 32.2 F1, outperforming our baseline by
4.5 points. The second best system uses entity-aware contextualized
representations for document retrieval, and achieves significant improvements
in Tamil (20.8 F1), whereas most of the other systems yield nearly zero scores.
- Abstract(参考訳): 本報告では,多言語情報アクセス(MIA)2022の共有タスクについて,言語間対話型質問応答(QA)システムの評価を行った。
そこで本研究では,14言語に2つの大規模言語横断型オープン検索QAデータセットを適応させ,新たに注釈付きオープン検索QAデータを2言語(TagalogとTamil)で記述した。
4チームがシステムを提出した。
反復的にマイニングされた様々なネガティブな例とより大きな事前訓練されたモデルを利用する最良のシステムは32.2 F1に達し、ベースラインを4.5ポイント上回る。
第2の最良のシステムは、文書検索にエンティティ対応のコンテキスト化表現を使用し、tami(20.8 f1)の大幅な改善を実現している。
関連論文リスト
- Building Efficient and Effective OpenQA Systems for Low-Resource
Languages [19.46626885769932]
低コストで効率的な OpenQA システムを低リソース言語向けに開発できることを示す。
主な要素は,(1) 機械翻訳ラベル付きデータセットを用いた弱監督,(2) 対象言語における非構造的知識源である。
我々は,SQuAD2.0の機械翻訳であるSQuAD-TRを提案し,トルコ語にColBERT-QAを適用してオープンQAシステムを構築した。
論文 参考訳(メタデータ) (2024-01-07T22:11:36Z) - CUNI Submission to MRL 2023 Shared Task on Multi-lingual Multi-task
Information Retrieval [5.97515243922116]
本稿では,多言語多タスク情報検索におけるMRL2023共有タスクのためのチャールズ大学システムを提案する。
共有タスクの目的は、いくつかの未表現言語で名前付きエンティティ認識と質問応答のためのシステムを開発することである。
両方のサブタスクに対する私たちのソリューションは、翻訳テストのアプローチに依存しています。
論文 参考訳(メタデータ) (2023-10-25T10:22:49Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - Lila: A Unified Benchmark for Mathematical Reasoning [59.97570380432861]
LILAは、23の多様なタスクと4次元からなる統一的な数学的推論ベンチマークである。
我々は,Pythonプログラムの形式でタスク命令とソリューションを収集することにより,20のデータセットベンチマークを拡張してベンチマークを構築した。
LILAで訓練された汎用数学的推論モデルであるBHASKARAを紹介する。
論文 参考訳(メタデータ) (2022-10-31T17:41:26Z) - Polyglot Prompt: Multilingual Multitask PrompTraining [35.70124413465395]
異なる言語から異なるタスクを(タスク/言語固有のモジュールを使わずに)モノリシックなフレームワークでモデル化できるだろうか?
学習フレームワークであるPolyglot Promptを開発し、適切な多言語プロンプトエンジニアリングの後、異なる言語やタスクの統一的な意味空間を学習するためのプロンプト手法を導入する。
論文 参考訳(メタデータ) (2022-04-29T17:40:50Z) - Facebook AI WMT21 News Translation Task Submission [23.69817809546458]
ニュース翻訳におけるWMT2021共有課題に対するFacebookの多言語モデル提出について述べる。
チェコ語、ドイツ語、ハウサ語、アイスランド語、日本語、ロシア語、中国語の14の言語指導に参加します。
利用可能なすべてのソースからのデータを利用して、高品質なバイリンガルベースラインとマルチリンガルベースラインを作成します。
論文 参考訳(メタデータ) (2021-08-06T18:26:38Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z) - XOR QA: Cross-lingual Open-Retrieval Question Answering [75.20578121267411]
この作業は、言語横断的な設定に応答するオープン検索の質問を拡張します。
我々は,同じ回答を欠いた質問に基づいて,大規模なデータセットを構築した。
論文 参考訳(メタデータ) (2020-10-22T16:47:17Z) - MKQA: A Linguistically Diverse Benchmark for Multilingual Open Domain
Question Answering [6.452012363895865]
このデータセットは、質問応答を評価するために、現在最も広い範囲の言語を提供する。
生成的および抽出的質問応答のための様々な最先端手法とベースラインをベンチマークする。
結果は、このデータセットが英語でも、特に低リソース言語では挑戦的であることを示している。
論文 参考訳(メタデータ) (2020-07-30T03:33:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。