論文の概要: An Exploratory Analysis of Multilingual Word-Level Quality Estimation
with Cross-Lingual Transformers
- arxiv url: http://arxiv.org/abs/2106.00143v1
- Date: Mon, 31 May 2021 23:21:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:58:34.348639
- Title: An Exploratory Analysis of Multilingual Word-Level Quality Estimation
with Cross-Lingual Transformers
- Title(参考訳): 言語間トランスフォーマーを用いた多言語単語レベル品質推定の探索的解析
- Authors: Tharindu Ranasinghe, Constantin Orasan, Ruslan Mitkov
- Abstract要約: 単語レベルの多言語QEモデルは、現在の言語固有のモデルと同等に機能することを示す。
ゼロショットおよび少数ショットQEの場合、他の言語ペアで訓練されたモデルから、任意の新しい言語ペアに対する単語レベルの品質を正確に予測できることを実証する。
- 参考スコア(独自算出の注目度): 3.4355075318742165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most studies on word-level Quality Estimation (QE) of machine translation
focus on language-specific models. The obvious disadvantages of these
approaches are the need for labelled data for each language pair and the high
cost required to maintain several language-specific models. To overcome these
problems, we explore different approaches to multilingual, word-level QE. We
show that these QE models perform on par with the current language-specific
models. In the cases of zero-shot and few-shot QE, we demonstrate that it is
possible to accurately predict word-level quality for any given new language
pair from models trained on other language pairs. Our findings suggest that the
word-level QE models based on powerful pre-trained transformers that we propose
in this paper generalise well across languages, making them more useful in
real-world scenarios.
- Abstract(参考訳): 機械翻訳の単語レベル品質推定(qe)に関するほとんどの研究は、言語固有のモデルに焦点を当てている。
これらのアプローチの明らかな欠点は、各言語ペアのラベル付きデータの必要性と、複数の言語固有のモデルを維持するために必要な高いコストである。
これらの問題を克服するために,多言語・単語レベルのqeに対する様々なアプローチを検討する。
これらのqeモデルが現在の言語固有のモデルと同等の性能を示す。
ゼロショットおよび少数ショットQEの場合、他の言語ペアで訓練されたモデルから、任意の新しい言語ペアに対する単語レベルの品質を正確に予測できることを実証する。
本論文で提案する強力な事前学習トランスフォーマーに基づく単語レベルのqeモデルは言語をまたがって広く普及し,現実のシナリオにおいてより有用であることが示唆された。
関連論文リスト
- Cross-lingual Transfer for Automatic Question Generation by Learning Interrogative Structures in Target Languages [6.635572580071933]
本稿では,モノリンガル,並列,ラベル付きデータを対象言語で必要とせずに動作可能な,単純かつ効率的なXLT-QG法を提案する。
提案手法は,GPT-3.5-turboに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2024-10-04T07:29:35Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - Generative Language Models for Paragraph-Level Question Generation [79.31199020420827]
強力な生成モデルが質問生成(QG)の最近の進歩につながっている
標準化された資源が存在しないため,QG研究の進歩を測定することは困難である。
我々はQGのベンチマークであるQG-Benchを導入し、既存のQGデータセットを標準QG設定に変換することで、既存の質問応答データセットを統一する。
論文 参考訳(メタデータ) (2022-10-08T10:24:39Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - MuCoT: Multilingual Contrastive Training for Question-Answering in
Low-resource Languages [4.433842217026879]
マルチ言語BERTベースのモデル(mBERT)は、高ソース言語から低リソース言語への知識伝達にしばしば使用される。
対象言語のQAサンプルを他の言語に翻訳し,mBERTベースのQAモデルを微調整するために拡張データを使用する。
Google ChAIIデータセットの実験では、mBERTモデルを同じ言語ファミリーからの翻訳で微調整することで、質問応答のパフォーマンスが向上することが示された。
論文 参考訳(メタデータ) (2022-04-12T13:52:54Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - Ensemble-based Transfer Learning for Low-resource Machine Translation
Quality Estimation [1.7188280334580195]
第5回機械翻訳会議(WMT20)の文レベルQE共有タスクに焦点を当てます。
このようなQEデータ不足の課題を克服するために、トランスファーラーニングを備えたアンサンブルベースの予測器推定QEモデルを提案する。
個々の言語で事前学習されたモデルと異なるレベルの並列学習コーパスと、ピアソンの相関値0.298とを組み合わせたアンサンブルモデルにおいて、最も優れた性能を実現する。
論文 参考訳(メタデータ) (2021-05-17T06:02:17Z) - Multilingual Answer Sentence Reranking via Automatically Translated Data [97.98885151955467]
本稿では,現代の質問応答システム(QA)のコアコンポーネントである,多言語回答文選択(AS2)モデルの設計について述べる。
主なアイデアは、あるリソースリッチ言語(英語など)から、他の言語へのデータ転送であり、リソースの観点からはよりリッチである。
論文 参考訳(メタデータ) (2021-02-20T03:52:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。