論文の概要: Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for
Improved Generalization
- arxiv url: http://arxiv.org/abs/2006.16205v3
- Date: Fri, 11 Jun 2021 23:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:56:17.251486
- Title: Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for
Improved Generalization
- Title(参考訳): 構成ファインチューニング: 一般化のための事前学習型デノナイジングオートエンコーダ
- Authors: Sang Michael Xie, Tengyu Ma, Percy Liang
- Abstract要約: 本稿では,出力の妥当性制約を考慮した構造化出力の予測問題に焦点をあてる。
事前トレーニングは、デノイザをトレーニングして、ラベルなし出力の破損したバージョンをデノイズすることによって、この構造をキャプチャする。
そこで本研究では,事前学習したデノイザを組み込んだ予測器を訓練するファインチューニングを提案する。
- 参考スコア(独自算出の注目度): 111.93452064731098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on prediction problems with structured outputs that are subject to
output validity constraints, e.g. pseudocode-to-code translation where the code
must compile. While labeled input-output pairs are expensive to obtain,
"unlabeled" outputs, i.e. outputs without corresponding inputs, are freely
available (e.g. code on GitHub) and provide information about output validity.
Pre-training captures this structure by training a denoiser to denoise
corrupted versions of unlabeled outputs. We first show that standard
fine-tuning after pre-training destroys some of this structure. We then propose
composed fine-tuning, which trains a predictor composed with the pre-trained
denoiser. Importantly, the denoiser is fixed to preserve output structure. Like
standard fine-tuning, the predictor is also initialized with the pre-trained
denoiser. We prove for two-layer ReLU networks that composed fine-tuning
significantly reduces the complexity of the predictor, thus improving
generalization. Empirically, we show that composed fine-tuning improves over
standard fine-tuning on two pseudocode-to-code translation datasets (3% and 6%
relative). The improvement is magnified on out-of-distribution (OOD) examples
(4% and 25% relative), suggesting that reducing predictor complexity improves
OOD extrapolation.
- Abstract(参考訳): 我々は,コードにコンパイルしなければならない擬似コード変換など,出力の妥当性制約を受ける構造化出力の予測問題に注目する。
ラベル付き入出力ペアは入手に費用がかかるが、"ラベルなし"出力(つまり、対応する入力のない出力)は自由に利用可能であり(github上のコードなど)、出力妥当性に関する情報を提供する。
プリトレーニングは、ラベルのない出力の破損したバージョンをデノイズするためにデノイザーを訓練することでこの構造をキャプチャする。
まず,プレトレーニング後の標準的な微調整が,この構造の一部を破壊していることを示す。
次に,事前学習したデノイザーを用いた予測器を訓練する合成微調整法を提案する。
重要なことに、デノイザは出力構造を保存するために固定される。
標準的な微調整と同様に、予測器は事前訓練されたデノイザーで初期化される。
微調整を構成する2層reluネットワークでは,予測器の複雑さが著しく減少し,一般化が改善される。
実験により,2つの擬似コードからコードへの変換データセット(3%,6%)の標準的な微調整よりも微調整が向上することを示した。
この改善は、オフ・オブ・ディストリビューション(OOD)の例(4%と25%の相対)で拡大され、予測複雑性の低減がOOD外挿を改善することが示唆されている。
関連論文リスト
- Diffusion-Based Speech Enhancement with Joint Generative and Predictive
Decoders [38.78712921188612]
本稿では,2段階にわたる共同生成型および予測型デコーダを用いた統合システムを提案する。
Voice-Bankデータセットで実施された実験は、予測情報を組み込むことで、より高速な復号化とより高いPSSQスコアが得られることを示した。
論文 参考訳(メタデータ) (2023-05-18T06:10:49Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Few-shot Mining of Naturally Occurring Inputs and Outputs [83.3871936721431]
我々は,100個の小さな種子セットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。
モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。
SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-09T05:40:52Z) - Recursive Decoding: A Situated Cognition Approach to Compositional
Generation in Grounded Language Understanding [0.0]
本稿では,Seq2seqモデルをトレーニングおよび使用するための新しい手順であるRecursive Decodingを提案する。
1回のパスで出力シーケンス全体を生成するのではなく、モデルは一度に1つのトークンを予測するように訓練される。
RDは、gSCANの2つの以前に無視された一般化タスクに対して劇的な改善をもたらす。
論文 参考訳(メタデータ) (2022-01-27T19:13:42Z) - Sparse Coding with Multi-Layer Decoders using Variance Regularization [19.8572592390623]
本稿では,デコーダの正規化を必要とせずに,符号の崩壊を防止する新しいスパース符号化プロトコルを提案する。
本手法は,各潜時符号成分が一定の閾値を超える分散を有するように,直接正規化する。
分散正規化法を用いて訓練した多層デコーダを用いたスパースオートエンコーダは、スペーサー表現を用いた高品質な再構成を実現する。
論文 参考訳(メタデータ) (2021-12-16T21:46:23Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - Funnel-Transformer: Filtering out Sequential Redundancy for Efficient
Language Processing [112.2208052057002]
本稿では,隠れ状態の列を短く圧縮するFunnel-Transformerを提案する。
Funnel-TransformerはFLOPに匹敵する数が少ないため、様々なシーケンスレベルの予測タスクにおいて標準のTransformerよりも優れている。
論文 参考訳(メタデータ) (2020-06-05T05:16:23Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Learning the Relation between Code Features and Code Transforms with
Structured Prediction [13.62633524166298]
条件付きランダムフィールド(CRF)を用いたASTノードのレベルでのコード変換を構造的に予測する最初の手法を提案する。
このアプローチはまず、特定のASTノードに特定のコード変換がどのように適用されるかをキャプチャする確率モデルをオフラインで学習し、次に学習したモデルを使用して、任意の新しい、目に見えないコードスニペットの変換を予測する。
論文 参考訳(メタデータ) (2019-07-22T12:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。