論文の概要: Optimal Corpus Aware Training for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2508.05364v1
- Date: Thu, 07 Aug 2025 13:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.869284
- Title: Optimal Corpus Aware Training for Neural Machine Translation
- Title(参考訳): ニューラルネットワーク翻訳のための最適コーパス認識訓練
- Authors: Yi-Hsiu Liao, Cheng Shen, Brenda, Yang,
- Abstract要約: コーパスアウェアトレーニング(Corpus Aware Training, CAT)は、トレーニング中に、各トレーニング例にコーパス情報を注入することにより、貴重なコーパスメタデータを活用する。
モデルパラメータのほとんどを凍結し,小セットのコーパス関連パラメータのみをチューニングすることにより,CAT事前訓練モデルを微調整するOCAT(Optimal Corpus Aware Training)を提案する。
OCATは軽量で、オーバーフィッティングに耐性があり、モデルの精度向上に有効であることを示す。
- 参考スコア(独自算出の注目度): 41.11282675221979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Corpus Aware Training (CAT) leverages valuable corpus metadata during training by injecting corpus information into each training example, and has been found effective in the literature, commonly known as the "tagging" approach. Models trained with CAT inherently learn the quality, domain and nuance between corpora directly from data, and can easily switch to different inference behavior. To achieve the best evaluation, CAT models pre-define a group of high quality data before training starts which can be error-prone and inefficient. In this work, we propose Optimal Corpus Aware Training (OCAT), which fine-tunes a CAT pre-trained model by freezing most of the model parameters and only tuning small set of corpus-related parameters. We show that OCAT is lightweight, resilient to overfitting, and effective in boosting model accuracy. We use WMT23 English to Chinese and English to German translation tasks as our test ground and show +3.6 and +1.8 chrF improvement, respectively, over vanilla training. Furthermore, our approach is on-par or slightly better than other state-of-the-art fine-tuning techniques while being less sensitive to hyperparameter settings.
- Abstract(参考訳): コーパス・アウェア・トレーニング(CAT)は、トレーニングの各例にコーパス情報を注入することで、トレーニング中に貴重なコーパスメタデータを活用する。
CATでトレーニングされたモデルは、データから直接コーパス間の品質、ドメイン、ニュアンスを学習し、異なる推論動作に簡単に切り替えることができる。
最高の評価を得るために、CATモデルはトレーニング開始前に高品質なデータのグループを事前定義する。
本研究では,CAT事前学習モデルにおいて,モデルパラメータの大部分を凍結し,小セットのコーパス関連パラメータのみをチューニングすることにより,CAT事前学習モデルを微調整するOCAT(Optimal Corpus Aware Training)を提案する。
OCATは軽量で、オーバーフィッティングに耐性があり、モデルの精度向上に有効であることを示す。
我々は、WMT23英語から中国語、英語、ドイツ語への翻訳タスクを試験場として使用し、バニラトレーニングよりも+3.6および+1.8 chrFの改善を示す。
さらに,本手法は高パラメータ設定に敏感でなく,他の最先端の微調整技術よりもわずかに優れている。
関連論文リスト
- Metadata Conditioning Accelerates Language Model Pre-training [76.54265482251454]
そこで本研究では,Metadata Conditioning then Cooldown (MeCo) と呼ばれる新しい手法を提案する。
MeCoは、さまざまなモデルスケール(600Mから8Bパラメータ)とトレーニングソース(C4、RefinedWeb、DCLM)の事前トレーニングを著しく加速する
MeCoは驚くほどシンプルで、計算オーバーヘッドを追加せず、より有能でステアブルな言語モデルを生成するという約束を示す。
論文 参考訳(メタデータ) (2025-01-03T18:59:23Z) - Critical Learning Periods: Leveraging Early Training Dynamics for Efficient Data Pruning [9.106234291496884]
CAT(Checkpoints Across Time)と呼ばれる新しいデータ解析手法を提案する。
我々は、COMET-QE、LASER、LaBSEなど、いくつかのデータプルーニング技術に対してCATをベンチマークする。
英語-ドイツ語、英語-フランス語、英語-スワヒリ翻訳タスクに適用すると、CATは完全なデータセットと同等のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-29T19:21:49Z) - Efficient Grammatical Error Correction Via Multi-Task Training and
Optimized Training Schedule [55.08778142798106]
原文と修正文のアライメントを利用する補助タスクを提案する。
我々は,各タスクをシーケンス・ツー・シーケンス問題として定式化し,マルチタスク・トレーニングを行う。
トレーニングに使用されるデータセットの順序や、データセット内の個々のインスタンスでさえ、最終的なパフォーマンスに重要な影響を与える可能性があることが分かりました。
論文 参考訳(メタデータ) (2023-11-20T14:50:12Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Long-Tail Learning with Foundation Model: Heavy Fine-Tuning Hurts [42.693469918949006]
本稿では,重度微調整がテールクラスの性能劣化の原因となる可能性を明らかにする。
我々は,高速な予測とコンパクトなモデルを実現することを目的として,低複雑さかつ高精度なロングテール学習アルゴリズムLIFTを開発した。
論文 参考訳(メタデータ) (2023-09-18T17:50:56Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - CAT:Collaborative Adversarial Training [80.55910008355505]
ニューラルネットワークの堅牢性を改善するために,協調的対人訓練フレームワークを提案する。
具体的には、異なる対戦型トレーニング手法を使用して、堅牢なモデルをトレーニングし、トレーニングプロセス中にモデルが自身の知識と対話できるようにします。
Cat は Auto-Attack ベンチマークの下で CIFAR-10 上の追加データを用いることなく、最先端の敵の堅牢性を達成している。
論文 参考訳(メタデータ) (2023-03-27T05:37:43Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。