論文の概要: Multistage BiCross Encoder: Team GATE Entry for MLIA Multilingual
Semantic Search Task 2
- arxiv url: http://arxiv.org/abs/2101.03013v2
- Date: Fri, 15 Jan 2021 20:38:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 05:10:13.054518
- Title: Multistage BiCross Encoder: Team GATE Entry for MLIA Multilingual
Semantic Search Task 2
- Title(参考訳): Multistage BiCross Encoder: MLIA Multilingual Semantic Search Task 2 のチーム GATE エントリ
- Authors: Iknoor Singh, Carolina Scarton, Kalina Bontcheva
- Abstract要約: MLIAタスク2多言語セマンティックサーチのためのチームGATEによって開発されたマルチステージBiCrossと呼ばれるサーチシステムを紹介します。
第1ラウンドの結果から,モノリンガルとバイリンガルの両方で,各ランキング指標の最先端性能が得られた。
- 参考スコア(独自算出の注目度): 6.229830820553111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Coronavirus (COVID-19) pandemic has led to a rapidly growing `infodemic'
online. Thus, the accurate retrieval of reliable relevant data from millions of
documents about COVID-19 has become urgently needed for the general public as
well as for other stakeholders. The COVID-19 Multilingual Information Access
(MLIA) initiative is a joint effort to ameliorate exchange of COVID-19 related
information by developing applications and services through research and
community participation. In this work, we present a search system called
Multistage BiCross Encoder, developed by team GATE for the MLIA task 2
Multilingual Semantic Search. Multistage BiCross-Encoder is a sequential three
stage pipeline which uses the Okapi BM25 algorithm and a transformer based
bi-encoder and cross-encoder to effectively rank the documents with respect to
the query. The results of round 1 show that our models achieve state-of-the-art
performance for all ranking metrics for both monolingual and bilingual runs.
- Abstract(参考訳): コロナウイルス(COVID-19)のパンデミックにより、オンラインでの「インフォデミック」が急速に増加している。
このように、新型コロナウイルスに関する何百万もの文書から信頼できる関連データの正確な検索が、一般人や利害関係者にも緊急に求められている。
COVID-19 Multilingual Information Access(MLIA)イニシアチブは、研究やコミュニティ参加を通じてアプリケーションやサービスを開発することで、新型コロナウイルス関連の情報の交換を改善するための共同取り組みである。
本研究では,mliaタスク2の多言語意味検索のためにteam gateが開発した多段バイクロスエンコーダという検索システムを提案する。
マルチステージビクロスエンコーダ(Multistage BiCross-Encoder)は、Okapi BM25アルゴリズムとトランスフォーマーベースのバイエンコーダとクロスエンコーダを用いて、クエリに関するドキュメントを効果的にランク付けする3段階パイプラインである。
第1ラウンドの結果から,モノリンガルとバイリンガルの両方で,各ランキング指標の最先端性能が得られた。
関連論文リスト
- Improved Cross-Lingual Transfer Learning For Automatic Speech
Translation [18.97234151624098]
エンコーダ-デコーダシーケンス-シーケンス変換モデルのエンコーダをSAMU-XLS-Rで初期化することにより,言語間タスクの知識伝達を大幅に改善することを示す。
提案手法の有効性を,CoVoST-2とEuroparlという2つの一般的なデータセットに示す。
論文 参考訳(メタデータ) (2023-06-01T15:19:06Z) - Simple Yet Effective Neural Ranking and Reranking Baselines for
Cross-Lingual Information Retrieval [50.882816288076725]
言語間情報検索は、ある言語で文書を検索し、別の言語でクエリーを検索するタスクである。
本研究では,多段階アーキテクチャを用いた言語横断検索のための異なるアプローチを体系化するための概念的枠組みを提案する。
我々は、ペルシア、ロシア、中国のTREC 2022 NeuCLIRトラックから収集したテストコレクションに対して、Anserini IRツールキットとPyserini IRツールキットに単純かつ効果的に再現可能なベースラインを実装した。
論文 参考訳(メタデータ) (2023-04-03T14:17:00Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - Multilingual Event Linking to Wikidata [5.726712522440283]
イベントリンクタスクの2つの変種を提案する: 1) イベント記述が言及と同じ言語からのものであるマルチリンガル、2) イベント記述がすべて英語で書かれているクロスリンガル。
このタスクのために大規模なデータセットを自動的にコンパイルし、Wikidataから10.9K以上のイベントを参照する44言語にわたる1.8Mの言及を含む。
論文 参考訳(メタデータ) (2022-04-13T17:28:23Z) - ESPnet-ST IWSLT 2021 Offline Speech Translation System [56.83606198051871]
本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。
今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。
私たちの最高のE2Eシステムは、すべてのテクニックをモデルアンサンブルと組み合わせ、31.4BLEUを達成しました。
論文 参考訳(メタデータ) (2021-07-01T17:49:43Z) - MCL@IITK at SemEval-2021 Task 2: Multilingual and Cross-lingual
Word-in-Context Disambiguation using Augmented Data, Signals, and
Transformers [1.869621561196521]
我々はSemEval 2021 Task 2: Multilingual and cross-lingual Word-in-Context Disambiguation (MCL-WiC) の解法を提案する。
目的は、両方の文に共通する単語が同じ意味を引き起こすかどうかを検出することである。
多言語とクロスリンガルの両方の設定のためのシステムを提出します。
論文 参考訳(メタデータ) (2021-04-04T08:49:28Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。