論文の概要: Deliberation Networks and How to Train Them
- arxiv url: http://arxiv.org/abs/2211.03217v1
- Date: Sun, 6 Nov 2022 20:47:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:45:22.581714
- Title: Deliberation Networks and How to Train Them
- Title(参考訳): 討論ネットワークと学習の仕方
- Authors: Qingyun Dou and Mark Gales
- Abstract要約: ディリベレーション・ネットワーク(Deliberation Network)は、シーケンス・ツー・シーケンス・モデルのファミリーである。
彼らは幅広いタスクで最先端のパフォーマンスを達成した。
この作業では、さまざまなトレーニングオプションをカバーする統一フレームワークを導入している。
- 参考スコア(独自算出の注目度): 1.4213973379473654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deliberation networks are a family of sequence-to-sequence models, which have
achieved state-of-the-art performance in a wide range of tasks such as machine
translation and speech synthesis. A deliberation network consists of multiple
standard sequence-to-sequence models, each one conditioned on the initial input
and the output of the previous model. During training, there are several key
questions: whether to apply Monte Carlo approximation to the gradients or the
loss, whether to train the standard models jointly or separately, whether to
run an intermediate model in teacher forcing or free running mode, whether to
apply task-specific techniques. Previous work on deliberation networks
typically explores one or two training options for a specific task. This work
introduces a unifying framework, covering various training options, and
addresses the above questions. In general, it is simpler to approximate the
gradients. When parallel training is essential, separate training should be
adopted. Regardless of the task, the intermediate model should be in free
running mode. For tasks where the output is continuous, a guided attention loss
can be used to prevent degradation into a standard model.
- Abstract(参考訳): Deliberation Networkはシーケンシャル・ツー・シーケンス・モデルの一群であり、機械翻訳や音声合成といった幅広いタスクにおいて最先端のパフォーマンスを達成した。
検討ネットワークは、複数の標準シーケンス-シーケンスモデルで構成され、それぞれが初期入力と前モデルの出力を条件とする。
トレーニング中、モンテカルロ近似を勾配や損失に適用するか、標準モデルを共同または別々にトレーニングするか、教師の強制またはフリーランニングモードで中間モデルを走らせるか、タスク固有のテクニックを適用するか、といったいくつかの重要な疑問がある。
審議ネットワークに関する以前の作業は、通常、特定のタスクに対して1つまたは2つのトレーニングオプションを探索する。
この作業は、さまざまなトレーニングオプションをカバーする統一フレームワークを導入し、上記の質問に答える。
一般に、勾配を近似するのは簡単である。
並列トレーニングが不可欠の場合、個別のトレーニングが採用される。
タスクにかかわらず、中間モデルはフリーランニングモードでなければならない。
アウトプットが連続しているタスクでは、標準モデルへの劣化を防ぐために注意の誘導損失が用いられる。
関連論文リスト
- SortedNet: A Scalable and Generalized Framework for Training Modular Deep Neural Networks [30.069353400127046]
我々は、ディープニューラルネットワーク(DNN)の固有のモジュラリティを活用するためにSortedNetを提案する。
SortedNetは、メインモデルのトレーニングと同時にサブモデルのトレーニングを可能にする。
一度に160台のサブモデルを訓練でき、オリジナルのモデルの性能の少なくとも96%を達成できる。
論文 参考訳(メタデータ) (2023-09-01T05:12:25Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Rank-One Editing of Encoder-Decoder Models [12.478605921259403]
ランクワン編集は、エンコーダ・デコーダ変換器モデルにおける振舞い削除要求の直接的な介入方法である。
NMTのための4つの編集タスクを提案し、提案アルゴリズムが高い有効性を実現することを示す。
論文 参考訳(メタデータ) (2022-11-23T21:34:57Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - Robust Transfer Learning with Pretrained Language Models through
Adapters [40.45102278979193]
BERTのような大きな事前訓練された言語モデルによる伝達学習は、ほとんどのNLPタスクにおいて支配的なアプローチとなっている。
これらの問題を緩和するために, 単純かつ効果的なアダプタベースのアプローチを提案する。
実験により,このような学習手法が,様々な下流タスクへの伝達学習における安定性と対角的堅牢性の向上につながることが示された。
論文 参考訳(メタデータ) (2021-08-05T02:30:13Z) - Simultaneous Training of Partially Masked Neural Networks [67.19481956584465]
トレーニングされたフルネットワークから事前定義された'コア'サブネットワークを分割して,優れたパフォーマンスでニューラルネットワークをトレーニングすることが可能であることを示す。
低ランクコアを用いたトランスフォーマーのトレーニングは,低ランクモデル単独のトレーニングよりも優れた性能を有する低ランクモデルが得られることを示す。
論文 参考訳(メタデータ) (2021-06-16T15:57:51Z) - Deep Ensembles for Low-Data Transfer Learning [21.578470914935938]
我々は、事前訓練されたモデルからアンサンブルを作成する様々な方法を研究する。
プレトレーニング自体が多様性の優れた源であることが示される。
本稿では,任意の下流データセットに対して,事前学習したモデルのサブセットを効率的に同定する実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-14T07:59:00Z) - Train No Evil: Selective Masking for Task-Guided Pre-Training [97.03615486457065]
一般的な事前学習と微調整の間を選択的にマスキングするタスク誘導事前学習段階を付加した3段階のフレームワークを提案する。
提案手法は,50%未満のコストで同等あるいはさらに優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-04-21T03:14:22Z) - Side-Tuning: A Baseline for Network Adaptation via Additive Side
Networks [95.51368472949308]
適応は、トレーニングデータが少ない場合や、ネットワークのプリエンプションをエンコードしたい場合などに有効である。
本稿では,サイドチューニングという簡単な方法を提案する。
論文 参考訳(メタデータ) (2019-12-31T18:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。