論文の概要: Scaling Laws for Downstream Task Performance in Machine Translation
- arxiv url: http://arxiv.org/abs/2402.04177v2
- Date: Thu, 20 Feb 2025 23:26:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:09:03.088686
- Title: Scaling Laws for Downstream Task Performance in Machine Translation
- Title(参考訳): 機械翻訳における下流タスクパフォーマンスのスケーリング法則
- Authors: Berivan Isik, Natalia Ponomareva, Hussein Hazimeh, Dimitris Paparas, Sergei Vassilvitskii, Sanmi Koyejo,
- Abstract要約: BLEU や COMET などの指標を用いて,事前学習データの選択が下流のパフォーマンス(翻訳品質)に与える影響について検討した。
十分なアライメントで、下流のクロスエントロピーと翻訳品質スコアは、より事前訓練されたデータで単調に改善される。
- 参考スコア(独自算出の注目度): 27.278023091494507
- License:
- Abstract: Scaling laws provide important insights that can guide the design of large language models (LLMs). Existing work has primarily focused on studying scaling laws for pretraining (upstream) loss. However, in transfer learning settings, in which LLMs are pretrained on an unsupervised dataset and then finetuned on a downstream task, we often also care about the downstream performance. In this work, we study the scaling behavior in a transfer learning setting, where LLMs are finetuned for machine translation tasks. Specifically, we investigate how the choice of the pretraining data and its size affect downstream performance (translation quality) as judged by: downstream cross-entropy and translation quality metrics such as BLEU and COMET scores. Our experiments indicate that the size of the finetuning dataset and the distribution alignment between the pretraining and downstream data significantly influence the scaling behavior. With sufficient alignment, both downstream cross-entropy and translation quality scores improve monotonically with more pretraining data. In such cases, we show that it is possible to predict the downstream translation quality metrics with good accuracy using a log-law. However, there are cases where moderate misalignment causes the downstream translation scores to fluctuate or get worse with more pretraining, whereas downstream cross-entropy monotonically improves. By analyzing these, we provide new practical insights for choosing appropriate pretraining data.
- Abstract(参考訳): スケーリング法則は、大きな言語モデル(LLM)の設計をガイドする重要な洞察を提供する。
既存の作業は主に、事前トレーニング(上流)損失のスケーリング法則の研究に重点を置いています。
しかし、トランスファー学習では、LLMを教師なしデータセットで事前訓練し、下流タスクで微調整することで、下流のパフォーマンスを気にすることが多い。
本研究では,LLMを機械翻訳タスクのために微調整した転写学習環境におけるスケーリング挙動について検討する。
具体的には,事前学習データの選択とそのサイズが,下流のクロスエントロピーやBLEUやCOMETスコアなどの翻訳品質指標から判断される下流のパフォーマンス(翻訳品質)にどのように影響するかを検討する。
実験の結果,微調整データセットのサイズと事前学習データと下流データの分布アライメントがスケーリング行動に大きく影響していることが示唆された。
十分なアライメントで、下流のクロスエントロピーと翻訳品質スコアは、より事前訓練されたデータで単調に改善される。
このような場合、ログローを用いて、下流の翻訳品質指標を精度良く予測できることが示される。
しかし、適度なミスアライメントが下流の翻訳スコアを変動させたり、事前訓練によって悪化させたりするケースもあるが、下流のクロスエントロピーは単調に改善する。
これらを解析することにより、適切な事前学習データを選択するための新しい実践的洞察を提供する。
関連論文リスト
- LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.053622641336744]
ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。
実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文 参考訳(メタデータ) (2025-02-17T18:45:25Z) - Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Downstream bias mitigation is all you need [2.7824025230291003]
本稿では,大規模言語モデル(LLM)による事前学習および微調整後のタスク固有行動におけるバイアスの程度について検討する。
事前トレーニングが重要であることは分かっていますが、モデルが事前トレーニングされた後、微調整データセットにおける共起率のわずかな変化でさえ、モデルのバイアスに大きな影響を及ぼします。
論文 参考訳(メタデータ) (2024-08-01T14:52:04Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Temporal Scaling Law for Large Language Models [24.12384260752973]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Inverse Scaling: When Bigger Isn't Better [80.42834197416444]
大規模言語モデル(LM)は、スケールの増大による全体的な損失に対する予測可能な改善を示している。
我々は,LMが逆スケーリングや,スケールの増大に伴うタスクパフォーマンスの悪化を示す可能性があるという主張を裏付ける証拠を示す。
論文 参考訳(メタデータ) (2023-06-15T20:11:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。