論文の概要: HLTCOE at TREC 2023 NeuCLIR Track
- arxiv url: http://arxiv.org/abs/2404.08118v1
- Date: Thu, 11 Apr 2024 20:46:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 16:24:45.391664
- Title: HLTCOE at TREC 2023 NeuCLIR Track
- Title(参考訳): TREC 2023 NeuCLIRトラックでのHLTCOE
- Authors: Eugene Yang, Dawn Lawrie, James Mayfield,
- Abstract要約: HLTチームはPLAID、mT5リランカー、文書翻訳をTREC 2023 NeuCLIRトラックに適用した。
PLAIDには、ColBERT v2でリリースされた英語モデル、Translate-train(TT)、Translate Distill(TD)、Translate Multilingual-train(MTT)など、さまざまなモデルとトレーニングテクニックが含まれていました。
- 参考スコア(独自算出の注目度): 10.223578525761617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The HLTCOE team applied PLAID, an mT5 reranker, and document translation to the TREC 2023 NeuCLIR track. For PLAID we included a variety of models and training techniques -- the English model released with ColBERT v2, translate-train~(TT), Translate Distill~(TD) and multilingual translate-train~(MTT). TT trains a ColBERT model with English queries and passages automatically translated into the document language from the MS-MARCO v1 collection. This results in three cross-language models for the track, one per language. MTT creates a single model for all three document languages by combining the translations of MS-MARCO passages in all three languages into mixed-language batches. Thus the model learns about matching queries to passages simultaneously in all languages. Distillation uses scores from the mT5 model over non-English translated document pairs to learn how to score query-document pairs. The team submitted runs to all NeuCLIR tasks: the CLIR and MLIR news task as well as the technical documents task.
- Abstract(参考訳): HLTCOEチームはPLAID、mT5リランカー、文書翻訳をTREC 2023 NeuCLIRトラックに適用した。
PLAIDには、ColBERT v2、Translate-train~(TT)、Translate Distill~(TD)、Multilingual translate-train~(MTT)といった、さまざまなモデルとトレーニングテクニックが含まれていました。
TTはColBERTモデルを英語クエリで訓練し、MS-MARCO v1コレクションから自動的に文書言語に翻訳される。
これにより、トラックの3つのクロスランゲージモデル、すなわち言語毎に1つが生成される。
MTTは、3言語すべてでMS-MARCO文の翻訳を混合言語バッチに組み合わせることで、3つの文書言語すべてに対して単一のモデルを作成する。
したがって、モデルは全ての言語で同時にクエリとパスのマッチングについて学習する。
蒸留では、mT5モデルのスコアを非英語の翻訳文書のペアに当てはめ、クエリとドキュメントのペアのスコアを学習する。
チームはすべてのNeuCLIRタスク(CLIRとMLIRニュースタスク、および技術ドキュメントタスク)に実行を提出した。
関連論文リスト
- Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Distillation for Multilingual Information Retrieval [10.223578525761617]
Translate-Distillフレームワークは翻訳と蒸留を用いて言語間ニューラルデュアルエンコーダモデルを訓練する。
本研究はTranslate-Distillを拡張し,多言語情報検索のためのTranslate-Distill (MTD)を提案する。
MTDで訓練したColBERT-Xモデルは、訓練したith Multilingual Translate-Trainよりも、nDCG@20で5%から25%、MAPで15%から45%優れていた。
論文 参考訳(メタデータ) (2024-05-02T03:30:03Z) - CML-TTS A Multilingual Dataset for Speech Synthesis in Low-Resource
Languages [0.769672852567215]
CML-TTSは、ゴイアス連邦大学(UFG)のCEIA(Center of Excellence in Artificial Intelligence)で開発された新しいテキスト音声データセットである。
CML-TTSはMultilingual LibriSpeech (MLS)をベースとしており、オランダ語、フランス語、ドイツ語、イタリア語、ポルトガル語、ポーランド語、スペイン語のオーディオブックからなるTSSモデルの訓練に適応している。
CML-TTSから3,176.13時間、LibriTTSから245.07時間でトレーニングされた多言語TSモデルであるYourTTSモデルを提供する。
論文 参考訳(メタデータ) (2023-06-16T17:17:06Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Multilingual ColBERT-X [11.768656900939048]
ColBERT-Xはクロスランゲージ情報検索(CLIR)のための高密度検索モデルである
CLIRでは、ドキュメントは1つの自然言語で書かれ、クエリは別の自然言語で表現される。
関連するタスクは多言語IR(MLIR)であり、システムは複数の言語で書かれた文書の単一のランクリストを作成する。
論文 参考訳(メタデータ) (2022-09-03T06:02:52Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - Multilingual Machine Translation Systems from Microsoft for WMT21 Shared
Task [95.06453182273027]
本報告では、大規模多言語機械翻訳におけるWMT21共有タスクのためのMicrosoftの機械翻訳システムについて述べる。
共有タスクへのモデル提出はDeltaLMnotefooturlhttps://aka.ms/deltalmで行われました。
最終提出は自動評価基準で3トラックにランクインした。
論文 参考訳(メタデータ) (2021-11-03T09:16:17Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。