論文の概要: Tailoring Domain Adaptation for Machine Translation Quality Estimation
- arxiv url: http://arxiv.org/abs/2304.08891v2
- Date: Tue, 9 May 2023 08:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 15:38:03.439763
- Title: Tailoring Domain Adaptation for Machine Translation Quality Estimation
- Title(参考訳): 機械翻訳品質推定のためのドメイン適応化
- Authors: Javad Pourmostafa Roshan Sharami, Dimitar Shterionov, Fr\'ed\'eric
Blain, Eva Vanmassenhove, Mirella De Sisto, Chris Emmery, Pieter Spronck
- Abstract要約: 本稿では、堅牢なQEシステム内でのドメイン適応とデータ拡張を組み合わせる。
調査対象としたすべての言語ペアに対して,より優れた言語間推論,ゼロショット学習シナリオにおける優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 1.8780017602640042
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While quality estimation (QE) can play an important role in the translation
process, its effectiveness relies on the availability and quality of training
data. For QE in particular, high-quality labeled data is often lacking due to
the high cost and effort associated with labeling such data. Aside from the
data scarcity challenge, QE models should also be generalizable, i.e., they
should be able to handle data from different domains, both generic and
specific. To alleviate these two main issues -- data scarcity and domain
mismatch -- this paper combines domain adaptation and data augmentation within
a robust QE system. Our method first trains a generic QE model and then
fine-tunes it on a specific domain while retaining generic knowledge. Our
results show a significant improvement for all the language pairs investigated,
better cross-lingual inference, and a superior performance in zero-shot
learning scenarios as compared to state-of-the-art baselines.
- Abstract(参考訳): 品質推定(QE)は翻訳プロセスにおいて重要な役割を果たすが、その効果はトレーニングデータの可用性と品質に依存している。
特にQEでは、そのようなデータのラベル付けに伴うコストと労力のために、高品質なラベル付きデータが欠落することが多い。
データ不足の問題は別として、QEモデルは一般化可能でなければならない。
データ不足とドメインミスマッチという2つの主要な問題を緩和するために、堅牢なQEシステム内でのドメイン適応とデータ拡張を組み合わせる。
提案手法はまず, 一般的なQEモデルを訓練し, 汎用知識を維持しつつ, 特定の領域で微調整する。
その結果,調査対象の言語ペアすべてにおいて有意な改善,言語間推論の改善,ゼロショット学習シナリオにおける優れたパフォーマンスが,最先端のベースラインと比較して示された。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - AI-Driven Frameworks for Enhancing Data Quality in Big Data Ecosystems: Error_Detection, Correction, and Metadata Integration [0.0]
この論文は、ビッグデータの品質を包括的に向上することを目的とした、新しい相互接続フレームワークセットを提案する。
まず,データ品質を正確に評価するために,新しい品質指標と重み付きスコアシステムを導入する。
第3に,AIモデルを用いた各種品質異常検出のための汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-06T21:36:45Z) - Dial-insight: Fine-tuning Large Language Models with High-Quality Domain-Specific Data Preventing Capability Collapse [4.98050508891467]
高品質なデータを得るために設計された生産プロンプトを構築するための2段階のアプローチを提案する。
この方法は、幅広いタスクを包含し、多種多様な表現を示す多様なプロンプトの生成を含む。
生成したラベルデータの整合性を確保するため,コスト効率,多次元品質評価フレームワークを導入する。
論文 参考訳(メタデータ) (2024-03-14T08:27:32Z) - Language Modelling Approaches to Adaptive Machine Translation [0.0]
一貫性は高品質な翻訳の鍵となる要件である。
ドメイン内のデータの不足は、翻訳設定でよく見られる。
推論時間における適応型MTの品質向上には,言語モデルが有効か?
論文 参考訳(メタデータ) (2024-01-25T23:02:54Z) - PAXQA: Generating Cross-lingual Question Answering Examples at Training
Scale [53.92008514395125]
PAXQA(クロスリンガル(x)QAのアノテーションの計画)は、クロスリンガルQAを2段階に分解する。
本稿では、並列ビットから制約されたエンティティを抽出する語彙制約機械翻訳の新たな利用法を提案する。
これらのデータセットに基づいて微調整されたモデルは、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。
論文 参考訳(メタデータ) (2023-04-24T15:46:26Z) - A Data-centric Framework for Improving Domain-specific Machine Reading
Comprehension Datasets [5.673449249014538]
低品質のデータは、高スループットアプリケーションで下流の問題を引き起こす可能性がある。
データ中心のアプローチでは、データセットの品質向上とモデルパフォーマンスの向上が重視される。
論文 参考訳(メタデータ) (2023-04-02T08:26:38Z) - Original or Translated? On the Use of Parallel Data for Translation
Quality Estimation [81.27850245734015]
並列データと実QEデータの間には,大きなギャップがある。
並列データの場合、それは無差別であり、翻訳文はソースまたはターゲットサイドで発生する可能性がある。
パラレルコーパスのソース元部分の使用は、そのターゲット元よりも一貫して優れています。
論文 参考訳(メタデータ) (2022-12-20T14:06:45Z) - Learning to Perturb Word Embeddings for Out-of-distribution QA [55.103586220757464]
本論文では,入力問題と文脈の単語埋め込みを意味論を変化させることなく学習するノイズ発生器に基づく簡便かつ効果的なDA法を提案する。
ひとつのソースデータセットに,5つの異なるターゲットドメインに埋め込むことで,トレーニングされたQAモデルのパフォーマンスを検証する。
特に、私たちのトレーニングを受けたモデルは、240K以上の人工的なQAペアでトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2021-05-06T14:12:26Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。