論文の概要: Toward domain-specific machine translation and quality estimation systems
- arxiv url: http://arxiv.org/abs/2603.24955v1
- Date: Thu, 26 Mar 2026 02:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.059337
- Title: Toward domain-specific machine translation and quality estimation systems
- Title(参考訳): ドメイン固有機械翻訳と品質推定システムに向けて
- Authors: Javad Pourmostafa Roshan Sharami,
- Abstract要約: 機械翻訳(MT)と品質推定(QE)は、一般的なドメインではよく機能するが、ドメインミスマッチでは劣化する。
この論文は、データ中心のコントリビューションセットを通じて、MTおよびQEシステムを特殊なドメインに適応する方法を研究する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Machine Translation (MT) and Quality Estimation (QE) perform well in general domains but degrade under domain mismatch. This dissertation studies how to adapt MT and QE systems to specialized domains through a set of data-focused contributions. Chapter 2 presents a similarity-based data selection method for MT. Small, targeted in-domain subsets outperform much larger generic datasets and reach strong translation quality at lower computational cost. Chapter 3 introduces a staged QE training pipeline that combines domain adaptation with lightweight data augmentation. The method improves performance across domains, languages, and resource settings, including zero-shot and cross-lingual cases. Chapter 4 studies the role of subword tokenization and vocabulary in fine-tuning. Aligned tokenization-vocabulary setups lead to stable training and better translation quality, while mismatched configurations reduce performance. Chapter 5 proposes a QE-guided in-context learning method for large language models. QE models select examples that improve translation quality without parameter updates and outperform standard retrieval methods. The approach also supports a reference-free setup, reducing reliance on a single reference set. These results show that domain adaptation depends on data selection, representation, and efficient adaptation strategies. The dissertation provides methods for building MT and QE systems that perform reliably in domain-specific settings.
- Abstract(参考訳): 機械翻訳(MT)と品質推定(QE)は、一般的なドメインではよく機能するが、ドメインミスマッチでは劣化する。
この論文は、データ中心のコントリビューションセットを通じて、MTおよびQEシステムを特殊なドメインに適応する方法を研究する。
第2章では、MTの類似性に基づくデータ選択法を提案し、より大規模な汎用データセットをはるかに上回り、より少ない計算コストで強力な翻訳品質に達することを目標にしている。
第3章では、ドメイン適応と軽量データ拡張を組み合わせた、段階的なQEトレーニングパイプラインを紹介している。
このメソッドは、ゼロショットやクロスランガルケースを含む、ドメイン、言語、リソース設定間でのパフォーマンスを改善する。
第4章は、微調整におけるサブワードのトークン化と語彙の役割を研究する。
トークン化ボキャブラリのアライメント設定は、トレーニングが安定し、翻訳品質が向上する一方、設定のミスマッチによりパフォーマンスが低下する。
第5章では、大規模言語モデルのためのQE誘導型インコンテキスト学習法を提案する。
QEモデルは、パラメータ更新なしで翻訳品質を向上させるサンプルを選択し、標準検索方法より優れている。
このアプローチはまた、参照不要のセットアップをサポートし、単一の参照セットへの依存を減らす。
これらの結果は、ドメイン適応はデータ選択、表現、効率的な適応戦略に依存していることを示している。
この論文は、ドメイン固有の設定で確実に機能するMTおよびQEシステムを構築する方法を提供する。
関連論文リスト
- Cross-Preference Learning for Sentence-Level and Context-Aware Machine Translation [33.915728960928774]
文レベルと文脈対応MTの相補的な利点を明示的に捉えた嗜好に基づく学習フレームワークを提案する。
提案手法は,Qwen3-4B,Qwen3-8B,Llama-3-8Bを含む複数のモデルを用いて,複数の公的な文脈対応MTタスクに対して検証する。
論文 参考訳(メタデータ) (2026-03-26T08:52:17Z) - Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios [10.17317882426833]
本研究は,4つの領域(医療,法,観光,一般)と5つの言語対にわたる英語とインデックスの機械翻訳における文レベルQEについて検討する。
クローズドウェイトモデルが単独で強力なパフォーマンスを達成する一方で、プロンプトのみのアプローチはオープンウェイトモデルには脆弱なままである。
論文 参考訳(メタデータ) (2026-03-07T22:55:25Z) - Language Modelling Approaches to Adaptive Machine Translation [0.0]
一貫性は高品質な翻訳の鍵となる要件である。
ドメイン内のデータの不足は、翻訳設定でよく見られる。
推論時間における適応型MTの品質向上には,言語モデルが有効か?
論文 参考訳(メタデータ) (2024-01-25T23:02:54Z) - Tailoring Domain Adaptation for Machine Translation Quality Estimation [1.8780017602640042]
本稿では、堅牢なQEシステム内でのドメイン適応とデータ拡張を組み合わせる。
調査対象としたすべての言語ペアに対して,より優れた言語間推論,ゼロショット学習シナリオにおける優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-04-18T10:36:50Z) - In-context Examples Selection for Machine Translation [101.50473468507697]
大規模生成モデルは、コンテキスト内学習を用いて、幅広い自然言語処理(NLP)タスクを実行するという印象的な能力を示している。
機械翻訳(MT)の場合、これらの例は、通常、開発データセットからランダムにサンプリングされ、評価セットと同じような分布を持つ。
テキスト内サンプルの翻訳品質とドメインが重要であり,1ショットノイズ非関連例が出力品質に破滅的な影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2022-12-05T17:25:15Z) - Finding the Right Recipe for Low Resource Domain Adaptation in Neural
Machine Translation [7.2283509416724465]
一般的な翻訳モデルは、しばしば専門領域で正確な翻訳を生成するのに苦労する。
ドメイン適応に対するモノリンガルおよび並列データアプローチの詳細な実験を行った。
私たちの研究には、消費者電子、臨床、バイオメディカルの3つの領域が含まれています。
論文 参考訳(メタデータ) (2022-06-02T16:38:33Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Iterative Domain-Repaired Back-Translation [50.32925322697343]
本稿では,ドメイン内並列コーパスが少ない,あるいは存在しない,低リソースのドメイン固有翻訳に焦点を当てる。
本稿では,合成バイリンガルデータの翻訳を洗練するためのドメイン・リペアモデルを提案する。
提案手法の有効性を示すため,NMTモデルを特定の領域と一般領域から特定の領域に適応させる実験を行った。
論文 参考訳(メタデータ) (2020-10-06T04:38:09Z) - A Simple Baseline to Semi-Supervised Domain Adaptation for Machine
Translation [73.3550140511458]
State-of-the-art Neural Machine Translation (NMT)システムは、データハングリーであり、教師付きデータを持たない新しいドメインではパフォーマンスが良くない。
NMTの半教師付きドメイン適応シナリオに対する単純だが効果のあるアプローチを提案する。
このアプローチは、言語モデリング、バックトランスレーション、教師付き翻訳の3つのトレーニング目標を通じて、TransformerベースのNMTモデルを反復的にトレーニングする。
論文 参考訳(メタデータ) (2020-01-22T16:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。