論文の概要: Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for
Improved Generalization
- arxiv url: http://arxiv.org/abs/2006.16205v3
- Date: Fri, 11 Jun 2021 23:45:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 13:56:17.251486
- Title: Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for
Improved Generalization
- Title(参考訳): 構成ファインチューニング: 一般化のための事前学習型デノナイジングオートエンコーダ
- Authors: Sang Michael Xie, Tengyu Ma, Percy Liang
- Abstract要約: 本稿では,出力の妥当性制約を考慮した構造化出力の予測問題に焦点をあてる。
事前トレーニングは、デノイザをトレーニングして、ラベルなし出力の破損したバージョンをデノイズすることによって、この構造をキャプチャする。
そこで本研究では,事前学習したデノイザを組み込んだ予測器を訓練するファインチューニングを提案する。
- 参考スコア(独自算出の注目度): 111.93452064731098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on prediction problems with structured outputs that are subject to
output validity constraints, e.g. pseudocode-to-code translation where the code
must compile. While labeled input-output pairs are expensive to obtain,
"unlabeled" outputs, i.e. outputs without corresponding inputs, are freely
available (e.g. code on GitHub) and provide information about output validity.
Pre-training captures this structure by training a denoiser to denoise
corrupted versions of unlabeled outputs. We first show that standard
fine-tuning after pre-training destroys some of this structure. We then propose
composed fine-tuning, which trains a predictor composed with the pre-trained
denoiser. Importantly, the denoiser is fixed to preserve output structure. Like
standard fine-tuning, the predictor is also initialized with the pre-trained
denoiser. We prove for two-layer ReLU networks that composed fine-tuning
significantly reduces the complexity of the predictor, thus improving
generalization. Empirically, we show that composed fine-tuning improves over
standard fine-tuning on two pseudocode-to-code translation datasets (3% and 6%
relative). The improvement is magnified on out-of-distribution (OOD) examples
(4% and 25% relative), suggesting that reducing predictor complexity improves
OOD extrapolation.
- Abstract(参考訳): 我々は,コードにコンパイルしなければならない擬似コード変換など,出力の妥当性制約を受ける構造化出力の予測問題に注目する。
ラベル付き入出力ペアは入手に費用がかかるが、"ラベルなし"出力(つまり、対応する入力のない出力)は自由に利用可能であり(github上のコードなど)、出力妥当性に関する情報を提供する。
プリトレーニングは、ラベルのない出力の破損したバージョンをデノイズするためにデノイザーを訓練することでこの構造をキャプチャする。
まず,プレトレーニング後の標準的な微調整が,この構造の一部を破壊していることを示す。
次に,事前学習したデノイザーを用いた予測器を訓練する合成微調整法を提案する。
重要なことに、デノイザは出力構造を保存するために固定される。
標準的な微調整と同様に、予測器は事前訓練されたデノイザーで初期化される。
微調整を構成する2層reluネットワークでは,予測器の複雑さが著しく減少し,一般化が改善される。
実験により,2つの擬似コードからコードへの変換データセット(3%,6%)の標準的な微調整よりも微調整が向上することを示した。
この改善は、オフ・オブ・ディストリビューション(OOD)の例(4%と25%の相対)で拡大され、予測複雑性の低減がOOD外挿を改善することが示唆されている。
関連論文リスト
- Training Language Models on Synthetic Edit Sequences Improves Code Synthesis [33.13471417703669]
大規模言語モデル(LLM)は、プログラムを単一のパスで自動ソースで合成する。
我々はLintSeqと呼ばれる合成データ生成アルゴリズムを開発し、高品質なコード編集データを生成する。
編集シーケンスを微調整したモデルがベースライン合成よりも多様なプログラムを生成することを示す。
論文 参考訳(メタデータ) (2024-10-03T17:57:22Z) - $\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。
単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文 参考訳(メタデータ) (2024-09-09T02:07:41Z) - Bit-flipping Decoder Failure Rate Estimation for (v,w)-regular Codes [84.0257274213152]
並列ビットフリップデコーダのDFRを高精度に推定する手法を提案する。
本研究は,本症候群のモデル化およびシミュレーションによる重み比較,第1イテレーション終了時の誤りビット分布の誤検出,復号化復号化率(DFR)について検証した。
論文 参考訳(メタデータ) (2024-01-30T11:40:24Z) - Diffusion-Based Speech Enhancement with Joint Generative and Predictive
Decoders [38.78712921188612]
本稿では,2段階にわたる共同生成型および予測型デコーダを用いた統合システムを提案する。
Voice-Bankデータセットで実施された実験は、予測情報を組み込むことで、より高速な復号化とより高いPSSQスコアが得られることを示した。
論文 参考訳(メタデータ) (2023-05-18T06:10:49Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Few-shot Mining of Naturally Occurring Inputs and Outputs [83.3871936721431]
我々は,100個の小さな種子セットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。
モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。
SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-09T05:40:52Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Learning the Relation between Code Features and Code Transforms with
Structured Prediction [13.62633524166298]
条件付きランダムフィールド(CRF)を用いたASTノードのレベルでのコード変換を構造的に予測する最初の手法を提案する。
このアプローチはまず、特定のASTノードに特定のコード変換がどのように適用されるかをキャプチャする確率モデルをオフラインで学習し、次に学習したモデルを使用して、任意の新しい、目に見えないコードスニペットの変換を予測する。
論文 参考訳(メタデータ) (2019-07-22T12:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。