論文の概要: Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for
Improved Generalization
- arxiv url: http://arxiv.org/abs/2006.16205v4
- Date: Tue, 24 Oct 2023 23:44:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 07:34:29.851461
- Title: Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for
Improved Generalization
- Title(参考訳): 構成ファインチューニング: 一般化のための事前学習型デノナイジングオートエンコーダ
- Authors: Sang Michael Xie, Tengyu Ma, Percy Liang
- Abstract要約: 本稿では,出力の妥当性制約を考慮した構造化出力の予測問題に焦点をあてる。
本稿では,事前学習したデノイザを組み込んだ予測器を微調整するファインチューニングを提案する。
2層ReLUネットワークの場合、構成した微調整が予測器の複雑さを著しく低減することを示す。
- 参考スコア(独自算出の注目度): 93.95299500688286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We focus on prediction problems with structured outputs that are subject to
output validity constraints, e.g. pseudocode-to-code translation where the code
must compile. While labeled input-output pairs are expensive to obtain,
"unlabeled" outputs, i.e. outputs without corresponding inputs, are freely
available (e.g. code on GitHub) and provide information about output validity.
We can capture the output structure by pre-training a denoiser to denoise
corrupted versions of unlabeled outputs. We first show that standard
fine-tuning after pre-training destroys some of this structure. We then propose
composed fine-tuning, which fine-tunes a predictor composed with the
pre-trained denoiser, which is frozen to preserve output structure. For
two-layer ReLU networks, we prove that composed fine-tuning significantly
reduces the complexity of the predictor, thus improving generalization.
Empirically, we show that composed fine-tuning improves over standard
fine-tuning on two pseudocode-to-code translation datasets (3% and 6%
relative). The improvement from composed fine-tuning is magnified on
out-of-distribution (OOD) examples (4% and 25% relative).
- Abstract(参考訳): 我々は,コードにコンパイルしなければならない擬似コード変換など,出力の妥当性制約を受ける構造化出力の予測問題に注目する。
ラベル付き入出力ペアは入手に費用がかかるが、"ラベルなし"出力(つまり、対応する入力のない出力)は自由に利用可能であり(github上のコードなど)、出力妥当性に関する情報を提供する。
ラベルなし出力の劣化バージョンを復調するためにデノイザを事前訓練することで、出力構造をキャプチャできる。
まず,プレトレーニング後の標準的な微調整が,この構造の一部を破壊していることを示す。
次に, 予め学習したデノイザを冷凍し, 出力構造を保存した予測器を微調整する構成ファインチューニングを提案する。
2層ReLUネットワークの場合、構成した微調整によって予測器の複雑さが大幅に減少し、一般化が向上することを示す。
実験により,2つの擬似コードからコードへの変換データセット(3%,6%)の標準的な微調整よりも微調整が向上することを示した。
合成微調整による改善は、アウト・オブ・ディストリビューション(OOD)の例(4%と25%の相対)で拡大される。
関連論文リスト
- Training Language Models on Synthetic Edit Sequences Improves Code Synthesis [33.13471417703669]
大規模言語モデル(LLM)は、プログラムを単一のパスで自動ソースで合成する。
我々はLintSeqと呼ばれる合成データ生成アルゴリズムを開発し、高品質なコード編集データを生成する。
編集シーケンスを微調整したモデルがベースライン合成よりも多様なプログラムを生成することを示す。
論文 参考訳(メタデータ) (2024-10-03T17:57:22Z) - $\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。
幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。
単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文 参考訳(メタデータ) (2024-09-09T02:07:41Z) - Bit-flipping Decoder Failure Rate Estimation for (v,w)-regular Codes [84.0257274213152]
並列ビットフリップデコーダのDFRを高精度に推定する手法を提案する。
本研究は,本症候群のモデル化およびシミュレーションによる重み比較,第1イテレーション終了時の誤りビット分布の誤検出,復号化復号化率(DFR)について検証した。
論文 参考訳(メタデータ) (2024-01-30T11:40:24Z) - Diffusion-Based Speech Enhancement with Joint Generative and Predictive
Decoders [38.78712921188612]
本稿では,2段階にわたる共同生成型および予測型デコーダを用いた統合システムを提案する。
Voice-Bankデータセットで実施された実験は、予測情報を組み込むことで、より高速な復号化とより高いPSSQスコアが得られることを示した。
論文 参考訳(メタデータ) (2023-05-18T06:10:49Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - Few-shot Mining of Naturally Occurring Inputs and Outputs [83.3871936721431]
我々は,100個の小さな種子セットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。
モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。
SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
論文 参考訳(メタデータ) (2022-05-09T05:40:52Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z) - Learning the Relation between Code Features and Code Transforms with
Structured Prediction [13.62633524166298]
条件付きランダムフィールド(CRF)を用いたASTノードのレベルでのコード変換を構造的に予測する最初の手法を提案する。
このアプローチはまず、特定のASTノードに特定のコード変換がどのように適用されるかをキャプチャする確率モデルをオフラインで学習し、次に学習したモデルを使用して、任意の新しい、目に見えないコードスニペットの変換を予測する。
論文 参考訳(メタデータ) (2019-07-22T12:42:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。