論文の概要: Extending Translate-Train for ColBERT-X to African Language CLIR
- arxiv url: http://arxiv.org/abs/2404.08134v1
- Date: Thu, 11 Apr 2024 21:31:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 16:24:45.374983
- Title: Extending Translate-Train for ColBERT-X to African Language CLIR
- Title(参考訳): ColBERT-Xの翻訳トレインをアフリカ語CLIRに拡張する
- Authors: Eugene Yang, Dawn J. Lawrie, Paul McNamee, James Mayfield,
- Abstract要約: 本稿では、FIRE 2023におけるアフリカ言語のためのCIRAL CLIRタスクにおけるHLTチームからの提出状況について述べる。
提案手法では,機械翻訳モデルを用いて文書とトレーニングパスを翻訳し,ColBERT-Xを検索モデルとした。
- 参考スコア(独自算出の注目度): 12.563820453197364
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes the submission runs from the HLTCOE team at the CIRAL CLIR tasks for African languages at FIRE 2023. Our submissions use machine translation models to translate the documents and the training passages, and ColBERT-X as the retrieval model. Additionally, we present a set of unofficial runs that use an alternative training procedure with a similar training setting.
- Abstract(参考訳): 本稿では、FIRE 2023におけるアフリカ言語のためのCIRAL CLIRタスクにおけるHLTCOEチームからの提出状況について述べる。
提案手法では,機械翻訳モデルを用いて文書とトレーニングパスを翻訳し,ColBERT-Xを検索モデルとした。
また、同様のトレーニング設定の代替トレーニング手順を用いた非公式ランニングのセットも提示する。
関連論文リスト
- Distillation for Multilingual Information Retrieval [10.223578525761617]
Translate-Distillフレームワークは翻訳と蒸留を用いて言語間ニューラルデュアルエンコーダモデルを訓練する。
本研究はTranslate-Distillを拡張し,多言語情報検索のためのTranslate-Distill (MTD)を提案する。
MTDで訓練したColBERT-Xモデルは、訓練したith Multilingual Translate-Trainよりも、nDCG@20で5%から25%、MAPで15%から45%優れていた。
論文 参考訳(メタデータ) (2024-05-02T03:30:03Z) - HLTCOE at TREC 2023 NeuCLIR Track [10.223578525761617]
HLTチームはPLAID、mT5リランカー、文書翻訳をTREC 2023 NeuCLIRトラックに適用した。
PLAIDには、ColBERT v2でリリースされた英語モデル、Translate-train(TT)、Translate Distill(TD)、Translate Multilingual-train(MTT)など、さまざまなモデルとトレーニングテクニックが含まれていました。
論文 参考訳(メタデータ) (2024-04-11T20:46:18Z) - Translate-Distill: Learning Cross-Language Dense Retrieval by
Translation and Distillation [17.211592060717713]
本稿では,モノリンガルのクロスエンコーダとCLIRのクロスエンコーダのどちらかから知識を蒸留して,デュアルエンコーダCLIRの学生モデルを訓練するTranslate-Distillを提案する。
このよりリッチなデザインスペースにより、教師モデルは、CLIRのために学生モデルを直接トレーニングしながら、最適化された設定で推論を実行できるようになる。
論文 参考訳(メタデータ) (2024-01-09T20:40:49Z) - Skywork: A More Open Bilingual Foundation Model [55.927396986873816]
英語と中国語の両方のテキストから引き出された3.2兆以上のトークンのコーパスをトレーニングした,大規模言語モデル(LLM)のファミリーであるSkywork-13Bを紹介する。
我々のモデルは,一般的なベンチマークに優れるだけでなく,さまざまなドメインにおける中国語のモデリングにおける芸術的パフォーマンスの即興性も達成できることを示す。
論文 参考訳(メタデータ) (2023-10-30T08:31:47Z) - Transfer Learning Approaches for Building Cross-Language Dense Retrieval
Models [25.150140840908257]
ColBERT-Xは、言語間の情報検索をサポートするために、ColBERT多表現密度検索モデルの一般化である。
ゼロショットトレーニングでは、XLM-Rエンコーダを使って英語MS MARCOコレクションをトレーニングする。
翻訳訓練では、MS MARCOの英語クエリと関連するMS MARCOの機械翻訳を併用して訓練を行う。
論文 参考訳(メタデータ) (2022-01-20T22:11:38Z) - Mi{\dh}eind's WMT 2021 submission [0.0]
我々は、2021年のWMTニュース翻訳タスクの英語$to$Icelandicおよびアイスランド$to$Englishサブセットに対するMidheindの提出を提示する。
論文 参考訳(メタデータ) (2021-09-15T14:56:00Z) - Cross-lingual Transferring of Pre-trained Contextualized Language Models [73.97131976850424]
本稿では,PRLMのための新しい言語間モデル転送フレームワークTreLMを提案する。
シンボルの順序と言語間のシーケンス長の差に対処するため,中間的なTRILayer構造を提案する。
提案手法は,スクラッチから学習した言語モデルに対して,性能と効率の両面で,限られたデータで著しく優れることを示す。
論文 参考訳(メタデータ) (2021-07-27T06:51:13Z) - DiDi's Machine Translation System for WMT2020 [51.296629834996246]
我々は中国語>英語の翻訳指導に参画する。
この方向では、ベースラインモデルとしてTransformerを使用します。
その結果,日英のBLEUスコアは36.6ドルとなった。
論文 参考訳(メタデータ) (2020-10-16T06:25:48Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z) - Revisiting Pre-Trained Models for Chinese Natural Language Processing [73.65780892128389]
我々は、中国語の事前学習言語モデルを再検討し、英語以外の言語での有効性について検討する。
また,RoBERTaを改良したMacBERTモデルを提案する。
論文 参考訳(メタデータ) (2020-04-29T02:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。