論文の概要: You Are What You Train: Effects of Data Composition on Training Context-aware Machine Translation Models
- arxiv url: http://arxiv.org/abs/2509.14031v1
- Date: Wed, 17 Sep 2025 14:33:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.877583
- Title: You Are What You Train: Effects of Data Composition on Training Context-aware Machine Translation Models
- Title(参考訳): トレーニングするもの: コンテキスト認識機械翻訳モデルのトレーニングにおけるデータ構成の影響
- Authors: Paweł Mąka, Yusuf Can Semerci, Jan Scholtes, Gerasimos Spanakis,
- Abstract要約: 標準的なトレーニングデータにおける文脈的に豊かなサンプルの分散は、文脈利用の難しさの理由として仮定されている。
トレーニングデータの空白度と,空白度を重要ボトルネックとするモデル性能との強い関係を実証する。
利用可能なデータを活用するために設計された2つのトレーニング戦略を提案し,実証的に評価する。
- 参考スコア(独自算出の注目度): 10.29311882711665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Achieving human-level translations requires leveraging context to ensure coherence and handle complex phenomena like pronoun disambiguation. Sparsity of contextually rich examples in the standard training data has been hypothesized as the reason for the difficulty of context utilization. In this work, we systematically validate this claim in both single- and multilingual settings by constructing training datasets with a controlled proportions of contextually relevant examples. We demonstrate a strong association between training data sparsity and model performance confirming sparsity as a key bottleneck. Importantly, we reveal that improvements in one contextual phenomenon do no generalize to others. While we observe some cross-lingual transfer, it is not significantly higher between languages within the same sub-family. Finally, we propose and empirically evaluate two training strategies designed to leverage the available data. These strategies improve context utilization, resulting in accuracy gains of up to 6 and 8 percentage points on the ctxPro evaluation in single- and multilingual settings respectively.
- Abstract(参考訳): 人間レベルの翻訳を実現するには、コヒーレンスを確保し、代名詞の曖昧さのような複雑な現象を扱うために文脈を活用する必要がある。
標準的なトレーニングデータにおける文脈的に豊かなサンプルの分散は、文脈利用の難しさの理由として仮定されている。
本研究では,文脈関連事例の制御された比率で学習データセットを構築することにより,単一言語と多言語の両方でこの主張を体系的に検証する。
トレーニングデータの空白度と,空白度を重要ボトルネックとするモデル性能との強い関係を実証する。
重要なことは、ある文脈現象の改善が他の状況に一般化しないことである。
いくつかの言語間移動を観察するが、同じサブファミリー内の言語間ではそれほど高くはない。
最後に、利用可能なデータを活用するために設計された2つのトレーニング戦略を提案し、実証的に評価する。
これらの戦略によりコンテキスト利用が向上し,ctxProの評価において最大6ポイント,8ポイントの精度が向上した。
関連論文リスト
- Beyond Random Sampling: Efficient Language Model Pretraining via Curriculum Learning [23.900888224619]
カリキュラム学習は,初等・中等教育段階におけるコンバージェンスを継続的に改善することを示す。
圧縮比、語彙の多様性、可読性は、設定間の効果的な難易度信号として同定する。
論文 参考訳(メタデータ) (2025-06-12T21:06:57Z) - A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives [13.581385765600265]
プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
論文 参考訳(メタデータ) (2024-07-22T09:16:30Z) - Enhancing Translation Accuracy of Large Language Models through Continual Pre-Training on Parallel Data [13.587157318352869]
本稿では,並列データに対して,事前学習された大規模言語モデルを継続的に事前学習する2相学習手法を提案する。
日本語と英語と日本語の13種類のテストセットを用いて,これらの手法の評価を行った。
論文 参考訳(メタデータ) (2024-07-03T14:23:36Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Diverse Pretrained Context Encodings Improve Document Translation [31.03899564183553]
複数の事前訓練された文書コンテキスト信号を組み込んだ文レベルのシーケンス・ツー・シーケンス・トランスフォーマに適応する新しいアーキテクチャを提案する。
最高のマルチコンテキストモデルは、既存のコンテクスト対応トランスフォーマーよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-07T15:28:01Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。