論文の概要: Training Dynamics for Text Summarization Models
- arxiv url: http://arxiv.org/abs/2110.08370v1
- Date: Fri, 15 Oct 2021 21:13:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:47:03.114509
- Title: Training Dynamics for Text Summarization Models
- Title(参考訳): テキスト要約モデルのトレーニングダイナミクス
- Authors: Tanya Goyal, Jiacheng Xu, Junyi Jessy Li, Greg Durrett
- Abstract要約: 我々は、ニュース要約に着目して、世代モデルのトレーニングダイナミクスを分析する。
異なるデータセット (CNN/DM, XSum, MediaSum) と要約特性を用いて, モデルが微調整プロセスの異なる段階で何を学習するかを検討する。
コピー動作などの特性は、トレーニングプロセスの早い段階で学習され、これらの観察はドメイン間で堅牢であることがわかった。
一方, 隠蔽事実の幻覚などの事実誤りは後期に学習され, この行動は領域によって多様である。
- 参考スコア(独自算出の注目度): 45.62439188988816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models (e.g. BART) have shown impressive results when
fine-tuned on large summarization datasets. However, little is understood about
this fine-tuning process, including what knowledge is retained from
pre-training models or how content selection and generation strategies are
learnt across iterations. In this work, we analyze the training dynamics for
generation models, focusing on news summarization. Across different datasets
(CNN/DM, XSum, MediaSum) and summary properties, such as abstractiveness and
hallucination, we study what the model learns at different stages of its
fine-tuning process. We find that properties such as copy behavior are learnt
earlier in the training process and these observations are robust across
domains. On the other hand, factual errors, such as hallucination of
unsupported facts, are learnt in the later stages, and this behavior is more
varied across domains. Based on these observations, we explore complementary
approaches for modifying training: first, disregarding high-loss tokens that
are challenging to learn and second, disregarding low-loss tokens that are
learnt very quickly. This simple training modification allows us to configure
our model to achieve different goals, such as improving factuality or improving
abstractiveness.
- Abstract(参考訳): 事前訓練された言語モデル(例えばBART)は、大規模な要約データセットで微調整された場合、印象的な結果を示している。
しかし、この微調整プロセスについては、事前学習モデルから保持されている知識や、コンテンツの選択と生成戦略がイテレーション間でどのように学習されるかなど、ほとんど理解されていない。
本研究では,ニュース要約に着目し,生成モデルのトレーニングダイナミクスを分析する。
各データセット(CNN/DM, XSum, MediaSum)と抽象性や幻覚といった要約特性を網羅し,その微調整過程の異なる段階でモデルがどのように学習するかを検討する。
コピー動作などの特性は、トレーニングプロセスの早い段階で学習され、これらの観察はドメイン間で堅牢である。
一方、否定的事実の幻覚のような事実的誤りは後期段階に学習され、その行動はドメインによって異なる。
これらの観察に基づいて、我々はトレーニングを修正するための補完的なアプローチを探る: 第一に、学習が困難な高損失トークンを無視し、第二に、非常に早く学習される低損失トークンを無視します。
この単純なトレーニング修正により、現実性の向上や抽象性の向上など、異なる目標を達成するためのモデルの設定が可能になります。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Adaptation Odyssey in LLMs: Why Does Additional Pretraining Sometimes Fail to Improve? [19.34040322172224]
テキストドメイン上でモデルをトレーニングすることは、同じドメインのテスト部分において、その難易度を低下させる可能性があることを示す。
我々の発見は、いつモデルを適応するか、いつ基礎的な能力に頼るかを決める上で、私たちを導くでしょう。
論文 参考訳(メタデータ) (2024-10-08T00:37:16Z) - EfficientTrain++: Generalized Curriculum Learning for Efficient Visual Backbone Training [79.96741042766524]
訓練カリキュラムをソフトセレクション機能として再構築する。
自然画像の内容の露光は,データ拡張の強度によって容易に達成できることを示す。
結果のメソッドであるEfficientTrain++は単純で汎用的だが驚くほど効果的である。
論文 参考訳(メタデータ) (2024-05-14T17:00:43Z) - Unlearning Traces the Influential Training Data of Language Models [31.33791825286853]
アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。
よりスケーラブルなアプローチであるUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。
論文 参考訳(メタデータ) (2024-01-26T23:17:31Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Efficient Learning of Model Weights via Changing Features During
Training [0.0]
学習中の特徴を動的に変化させる機械学習モデルを提案する。
私たちの主な動機は、トレーニングプロセス中に小さなコンテンツでモデルを更新し、より説明力の少ない機能を大きなプールから新しいものに置き換えることです。
論文 参考訳(メタデータ) (2020-02-21T12:38:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。