論文の概要: Does Pretraining for Summarization Require Knowledge Transfer?
- arxiv url: http://arxiv.org/abs/2109.04953v1
- Date: Fri, 10 Sep 2021 15:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-13 13:42:19.029046
- Title: Does Pretraining for Summarization Require Knowledge Transfer?
- Title(参考訳): 要約のための事前学習は知識伝達を必要とするか?
- Authors: Kundan Krishna, Jeffrey Bigham and Zachary C. Lipton
- Abstract要約: ランダムに選択した文字n-gramの事前学習は,実コーパスで事前学習したモデルの性能とほぼ一致していることを示す。
この研究は上流のコーパスを排除するという約束を守り、攻撃的な言語、偏見、著作権問題に対する懸念を和らげる可能性がある。
- 参考スコア(独自算出の注目度): 27.297137706355173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretraining techniques leveraging enormous datasets have driven recent
advances in text summarization. While folk explanations suggest that knowledge
transfer accounts for pretraining's benefits, little is known about why it
works or what makes a pretraining task or dataset suitable. In this paper, we
challenge the knowledge transfer story, showing that pretraining on documents
consisting of character n-grams selected at random, we can nearly match the
performance of models pretrained on real corpora. This work holds the promise
of eliminating upstream corpora, which may alleviate some concerns over
offensive language, bias, and copyright issues. To see whether the small
residual benefit of using real data could be accounted for by the structure of
the pretraining task, we design several tasks motivated by a qualitative study
of summarization corpora. However, these tasks confer no appreciable benefit,
leaving open the possibility of a small role for knowledge transfer.
- Abstract(参考訳): 膨大なデータセットを活用する事前学習技術は、テキスト要約の最近の進歩を駆動している。
民間の説明では、知識の伝達は事前訓練の利点を説明できるが、なぜそれが機能するのか、それとも事前訓練のタスクやデータセットを適当にするかは、ほとんど分かっていない。
本稿では,ランダムに選択された文字n-gramからなる文書を事前学習することで,実コーパスで事前学習したモデルの性能にほぼ匹敵することを示す。
この研究は上流コーパスの排除を約束しており、攻撃的言語、偏見、著作権問題に対する懸念を緩和する可能性がある。
実データを用いた残余利益が事前学習タスクの構造によって説明できるかどうかを確認するために,要約コーパスの質的研究によって動機づけられたタスクをいくつか設計する。
しかし、これらのタスクは有益な利益を与えず、知識伝達の小さな役割の可能性を秘めている。
関連論文リスト
- Is forgetting less a good inductive bias for forward transfer? [7.704064306361941]
本論では,タスクへの前方移動の尺度は,継続学習者に課される制約の影響を受けない,と論じる。
代わりに、フォワード転送は、以前のタスクで連続的な学習によって生成された表現のセットから新しいタスクを学ぶのがいかに簡単かによって測定されるべきである。
その結果, 忘れやすい表現は, 過去の情報保持と学習効率の相関関係が強いことを示唆し, 転送効率が向上することが示された。
論文 参考訳(メタデータ) (2023-03-14T19:52:09Z) - Optimal transfer protocol by incremental layer defrosting [66.76153955485584]
トランスファーラーニングは、限られた量のデータでモデルトレーニングを可能にする強力なツールである。
最も単純な転送学習プロトコルは、データリッチなソースタスクで事前訓練されたネットワークの機能抽出層を凍結する。
このプロトコルは、しばしば準最適であり、事前学習されたネットワークの小さな部分を凍結したままにしておくと、最大の性能向上が達成される可能性がある。
論文 参考訳(メタデータ) (2023-03-02T17:32:11Z) - Pre-Train Your Loss: Easy Bayesian Transfer Learning with Informative
Priors [59.93972277761501]
我々は,教師付きあるいは自己指導型アプローチにより,ソースタスクから高い情報的後部を学習できることを実証した。
このシンプルなモジュラーアプローチは、様々な下流の分類とセグメンテーションタスクにおいて、大幅なパフォーマンス向上と、よりデータ効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2022-05-20T16:19:30Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Towards All-around Knowledge Transferring: Learning From Task-irrelevant
Labels [44.036667329736225]
既存の取り組みは、この問題に取り組むために、タスク関連知識を他の類似データから移すことに重点を置いている。
これまでタスク非関連の特徴の影響を調査する大規模な研究は行われていない。
本稿では,タスク非関連ラベルから主に抽出されるタスク非関連特徴を利用するタスク非関連変換学習を提案する。
論文 参考訳(メタデータ) (2020-11-17T06:43:58Z) - What is being transferred in transfer learning? [51.6991244438545]
事前訓練した重量からトレーニングを行うと、モデルは損失景観の同じ流域に留まることを示す。
事前学習した重みからトレーニングする場合、モデルは損失ランドスケープの同じ流域に留まり、そのようなモデルの異なるインスタンスは特徴空間と類似しており、パラメータ空間は近接している。
論文 参考訳(メタデータ) (2020-08-26T17:23:40Z) - Continual Class Incremental Learning for CT Thoracic Segmentation [36.45569352490318]
深層学習機関のセグメンテーションアプローチは大量の注釈付きトレーニングデータを必要とするが、これは機密性の理由と専門家の手による注釈に必要な時間のために供給が限られている。
以前使用されていたデータにアクセスせずに、段階的にモデルをトレーニングできることが望ましい。
この設定では、モデルは新しいタスクを効果的に学習するが、以前に学習したタスクのパフォーマンスが低下する。
LwF(Learning without Forgetting)アプローチは、モデルトレーニング中に過去のタスクに対する独自の予測を再生することでこの問題に対処する。
従来のセグメンテーションに関する知識をLwFが保持できることを示すが、新しいクラスを学習する能力は減少する。
論文 参考訳(メタデータ) (2020-08-12T20:08:39Z) - Exploring and Predicting Transferability across NLP Tasks [115.6278033699853]
本研究では,33のNLPタスク間の伝達可能性について検討した。
以上の結果から,転帰学習は従来考えられていたよりも有益であることが示唆された。
また,特定の対象タスクに対して最も転送可能なソースタスクを予測するために使用できるタスク埋め込みも開発した。
論文 参考訳(メタデータ) (2020-05-02T09:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。