論文の概要: Addressing Issues of Cross-Linguality in Open-Retrieval Question
Answering Systems For Emergent Domains
- arxiv url: http://arxiv.org/abs/2201.11153v1
- Date: Wed, 26 Jan 2022 19:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-29 05:14:33.292870
- Title: Addressing Issues of Cross-Linguality in Open-Retrieval Question
Answering Systems For Emergent Domains
- Title(参考訳): 創発領域のオープン・リトリーバル質問応答システムにおける言語交叉問題への取り組み
- Authors: Alon Albalak, Sharon Levy, and William Yang Wang
- Abstract要約: 新型コロナウイルスの緊急ドメインに対する言語横断的オープン検索型質問応答システムについて紹介する。
本システムでは,検索した文書の信頼性を確保するために,学術論文のコーパスを採用している。
深いセマンティック・レトリバーは、我々の英語からすべてのデータに対するトレーニングの恩恵が大きく、言語横断環境ではBM25ベースラインを大幅に上回っていることを示す。
- 参考スコア(独自算出の注目度): 67.99403521976058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-retrieval question answering systems are generally trained and tested on
large datasets in well-established domains. However, low-resource settings such
as new and emerging domains would especially benefit from reliable question
answering systems. Furthermore, multilingual and cross-lingual resources in
emergent domains are scarce, leading to few or no such systems. In this paper,
we demonstrate a cross-lingual open-retrieval question answering system for the
emergent domain of COVID-19. Our system adopts a corpus of scientific articles
to ensure that retrieved documents are reliable. To address the scarcity of
cross-lingual training data in emergent domains, we present a method utilizing
automatic translation, alignment, and filtering to produce English-to-all
datasets. We show that a deep semantic retriever greatly benefits from training
on our English-to-all data and significantly outperforms a BM25 baseline in the
cross-lingual setting. We illustrate the capabilities of our system with
examples and release all code necessary to train and deploy such a system.
- Abstract(参考訳): オープンリトライの質問応答システムは一般的に訓練され、確立されたドメインの大規模データセット上でテストされる。
しかし、新規ドメインや新興ドメインのような低リソース設定は、特に信頼性の高い質問応答システムの恩恵を受ける。
さらに、創発ドメインにおける多言語および言語間リソースは少ないため、そのようなシステムはほとんど、あるいは全くない。
本稿では,COVID-19の創発的ドメインに対する言語横断的オープン検索型質問応答システムについて紹介する。
本システムでは,検索された文書の信頼性を確保するために,科学論文のコーパスを採用している。
本稿では,創発領域における言語間学習データの不足に対処するために,自動翻訳,アライメント,フィルタリングを用いて英語対全データセットを生成する手法を提案する。
深いセマンティックレトリバーは、我々の英語からすべてのデータに対するトレーニングの恩恵が大きく、言語横断環境でBM25ベースラインを大幅に上回っていることを示す。
このようなシステムをトレーニングし、デプロイするために必要なすべてのコードをサンプルで公開し、システムの機能を説明します。
関連論文リスト
- Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - ZusammenQA: Data Augmentation with Specialized Models for Cross-lingual
Open-retrieval Question Answering System [16.89747171947662]
本稿では,言語横断的オープン-検索質問応答(COQA)におけるMIA共有タスクを提案する。
この挑戦的なシナリオでは、入力された質問に対して、システムは多言語プールから証拠文書を収集し、その質問の言語で回答を生成する必要がある。
データ拡張(Data Augmentation)、パッセージ検索(Passage Retrieval)、Answer Generation(Answer Generation)の3つの主要コンポーネントに対して、異なるモデル変種を組み合わせたいくつかのアプローチを考案した。
論文 参考訳(メタデータ) (2022-05-30T10:31:08Z) - Design and Development of Rule-based open-domain Question-Answering
System on SQuAD v2.0 Dataset [0.0]
我々はルールベースのオープンドメイン問合せシステムを提案し、対応するコンテキストパスから任意のドメインの問合せに答えることができる。
我々は、SQuAD 2.0データセットから1000の質問を開発システムをテストするために使いました。
論文 参考訳(メタデータ) (2022-03-27T07:51:18Z) - Multi-CPR: A Multi Domain Chinese Dataset for Passage Retrieval [19.000263567641817]
経路検索のための新しい多領域中国語データセット(Multi-CPR)を提案する。
データセットはEコマース、エンターテイメントビデオ、メディカルを含む3つの異なるドメインから収集される。
一般ドメインからのデータセットでトレーニングされた検索モデルの性能は、特定のドメインで必然的に低下する。
論文 参考訳(メタデータ) (2022-03-07T13:20:46Z) - Learning Domain-Specialised Representations for Cross-Lingual Biomedical
Entity Linking [66.76141128555099]
言語横断型バイオメディカルエンティティリンクタスク(XL-BEL)を提案する。
まず、標準単言語英語BELタスクを超えて、標準単言語および多言語LMと同様に、標準的な知識に依存しない能力について検討する。
次に、リソースに富んだ言語からリソースに乏しい言語にドメイン固有の知識を移すことの課題に対処する。
論文 参考訳(メタデータ) (2021-05-30T00:50:00Z) - Towards More Equitable Question Answering Systems: How Much More Data Do
You Need? [15.401330338654203]
ステップバックして、既存のリソースを最大限に活用して、多くの言語でQAシステムを開発するためのアプローチを研究します。
具体的には、自動翻訳とコンテキスト-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せの順に拡張された数ショットアプローチの有効性を評価するために、広範囲に分析を行った。
我々は、QAデータセットやシステムの言語カバレッジを高めることを目的として、固定アノテーション予算をより活用するための将来のデータセット開発活動を提案する。
論文 参考訳(メタデータ) (2021-05-28T21:32:04Z) - FDMT: A Benchmark Dataset for Fine-grained Domain Adaptation in Machine
Translation [53.87731008029645]
機械翻訳(FDMT)における実世界のきめ細かいドメイン適応タスクを提案する。
FDMTデータセットは、自動運転車、AI教育、リアルタイムネットワーク、スマートフォンの4つのサブドメインで構成されている。
この新しい設定で定量的な実験と深い分析を行い、きめ細かいドメイン適応タスクをベンチマークします。
論文 参考訳(メタデータ) (2020-12-31T17:15:09Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。