Fugu-MT 論文翻訳(概要): Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for Improved Generalization

論文の概要: Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for Improved Generalization

arxiv url: http://arxiv.org/abs/2006.16205v3
Date: Fri, 11 Jun 2021 23:45:47 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-15 13:56:17.251486
Title: Composed Fine-Tuning: Freezing Pre-Trained Denoising Autoencoders for Improved Generalization
Title（参考訳）: 構成ファインチューニング: 一般化のための事前学習型デノナイジングオートエンコーダ
Authors: Sang Michael Xie, Tengyu Ma, Percy Liang
Abstract要約: 本稿では,出力の妥当性制約を考慮した構造化出力の予測問題に焦点をあてる。事前トレーニングは、デノイザをトレーニングして、ラベルなし出力の破損したバージョンをデノイズすることによって、この構造をキャプチャする。そこで本研究では,事前学習したデノイザを組み込んだ予測器を訓練するファインチューニングを提案する。
参考スコア（独自算出の注目度）: 111.93452064731098
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We focus on prediction problems with structured outputs that are subject to output validity constraints, e.g. pseudocode-to-code translation where the code must compile. While labeled input-output pairs are expensive to obtain, "unlabeled" outputs, i.e. outputs without corresponding inputs, are freely available (e.g. code on GitHub) and provide information about output validity. Pre-training captures this structure by training a denoiser to denoise corrupted versions of unlabeled outputs. We first show that standard fine-tuning after pre-training destroys some of this structure. We then propose composed fine-tuning, which trains a predictor composed with the pre-trained denoiser. Importantly, the denoiser is fixed to preserve output structure. Like standard fine-tuning, the predictor is also initialized with the pre-trained denoiser. We prove for two-layer ReLU networks that composed fine-tuning significantly reduces the complexity of the predictor, thus improving generalization. Empirically, we show that composed fine-tuning improves over standard fine-tuning on two pseudocode-to-code translation datasets (3% and 6% relative). The improvement is magnified on out-of-distribution (OOD) examples (4% and 25% relative), suggesting that reducing predictor complexity improves OOD extrapolation.
Abstract（参考訳）: 我々は,コードにコンパイルしなければならない擬似コード変換など,出力の妥当性制約を受ける構造化出力の予測問題に注目する。ラベル付き入出力ペアは入手に費用がかかるが、"ラベルなし"出力(つまり、対応する入力のない出力)は自由に利用可能であり(github上のコードなど)、出力妥当性に関する情報を提供する。プリトレーニングは、ラベルのない出力の破損したバージョンをデノイズするためにデノイザーを訓練することでこの構造をキャプチャする。まず,プレトレーニング後の標準的な微調整が,この構造の一部を破壊していることを示す。次に,事前学習したデノイザーを用いた予測器を訓練する合成微調整法を提案する。重要なことに、デノイザは出力構造を保存するために固定される。標準的な微調整と同様に、予測器は事前訓練されたデノイザーで初期化される。微調整を構成する2層reluネットワークでは,予測器の複雑さが著しく減少し,一般化が改善される。実験により,2つの擬似コードからコードへの変換データセット(3%,6%)の標準的な微調整よりも微調整が向上することを示した。この改善は、オフ・オブ・ディストリビューション(OOD)の例(4%と25%の相対)で拡大され、予測複雑性の低減がOOD外挿を改善することが示唆されている。

関連論文リスト

Combining Constrained and Unconstrained Decoding via Boosting: BoostCD and Its Application to Information Extraction [11.996681571362744]
Boosted Constrained Decodingは制約付きと制約なしのデコーディングを2つのフェーズで組み合わせる。閉鎖情報抽出に適用することで,BoostCDのパワーを実証する。
論文参考訳（メタデータ） (2025-06-17T18:16:17Z)
Turbo-Annihilation of Hook Errors in Stabilizer Measurement Circuits [2.6999000177990924]
安定化器測定回路における相関フック誤りを補正するためのスケーラブルな復号化フレームワークを提案する。従来の回路レベルの復号法は、拡張タナーグラフを構築することによって断層の正確な位置を推定しようとする。提案手法では,フック故障によるデータエラーをメモリチャネルとしてモデル化する。
論文参考訳（メタデータ） (2025-04-29T22:09:11Z)
CodeI/O: Condensing Reasoning Patterns via Code Input-Output Prediction [47.17755403213469]
我々は,文脈的に構築されたコードに埋め込まれた多様な推論パターンを凝縮する新しい手法であるCodeI/Oを提案する。与えられたコードとテストケースを完全に自然言語で予測するためにモデルをトレーニングすることで、それらを普遍的な推論プリミティブに公開します。実験の結果、CodeI/Oは記号、科学、論理学、数学と数値、常識推論タスクに一貫した改善をもたらすことが示された。
論文参考訳（メタデータ） (2025-02-11T07:26:50Z)
Enhanced Min-Sum Decoding of Quantum Codes Using Previous Iteration Dynamics [3.6048794343841766]
本稿では,量子低密度パリティチェック符号の縮退を利用した新しいメッセージパス復号法を提案する。我々は2ブロックのCalderbank-Shor-Steane符号(CSS)に着目している。
論文参考訳（メタデータ） (2025-01-09T07:28:26Z)
Training Language Models on Synthetic Edit Sequences Improves Code Synthesis [33.13471417703669]
大規模言語モデル(LLM)は、プログラムを単一のパスで自動ソースで合成する。我々はLintSeqと呼ばれる合成データ生成アルゴリズムを開発し、高品質なコード編集データを生成する。編集シーケンスを微調整したモデルがベースライン合成よりも多様なプログラムを生成することを示す。
論文参考訳（メタデータ） (2024-10-03T17:57:22Z)
$\mathbb{USCD}$: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding [64.00025564372095]
大規模言語モデル(LLM)は、コード生成において顕著な能力を示している。幻覚の影響(例えば出力ノイズ)は、LLMが1パスで高品質なコードを生成するのを難しくする。単純かつ効果的なtextbfuncertainty-aware textbf select textbfcontrastive textbfdecodingを提案する。
論文参考訳（メタデータ） (2024-09-09T02:07:41Z)
Bit-flipping Decoder Failure Rate Estimation for (v,w)-regular Codes [84.0257274213152]
並列ビットフリップデコーダのDFRを高精度に推定する手法を提案する。本研究は,本症候群のモデル化およびシミュレーションによる重み比較,第1イテレーション終了時の誤りビット分布の誤検出,復号化復号化率(DFR)について検証した。
論文参考訳（メタデータ） (2024-01-30T11:40:24Z)
Diffusion-Based Speech Enhancement with Joint Generative and Predictive Decoders [38.78712921188612]
本稿では,2段階にわたる共同生成型および予測型デコーダを用いた統合システムを提案する。 Voice-Bankデータセットで実施された実験は、予測情報を組み込むことで、より高速な復号化とより高いPSSQスコアが得られることを示した。
論文参考訳（メタデータ） (2023-05-18T06:10:49Z)
Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-12-16T11:15:39Z)
Few-shot Mining of Naturally Occurring Inputs and Outputs [83.3871936721431]
我々は,100個の小さな種子セットを用いて訓練した教師付き鉱業関数を用いて,大規模コーパスからの入力出力例をマイニングした。モデル生成データ拡張とは違って,本手法では,複数のタスクを対象としたシードセットのスタイルを模倣するために,自然に発生する高品質な入力出力ペアをマイニングする。 SQuAD型読解では, 採取したデータでシードセットを増強すると, シードセットのみを微調整したBART-largeベースラインよりも13F1の精度が向上した。
論文参考訳（メタデータ） (2022-05-09T05:40:52Z)
On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文参考訳（メタデータ） (2020-04-24T16:57:52Z)
Learning the Relation between Code Features and Code Transforms with Structured Prediction [13.62633524166298]
条件付きランダムフィールド(CRF)を用いたASTノードのレベルでのコード変換を構造的に予測する最初の手法を提案する。このアプローチはまず、特定のASTノードに特定のコード変換がどのように適用されるかをキャプチャする確率モデルをオフラインで学習し、次に学習したモデルを使用して、任意の新しい、目に見えないコードスニペットの変換を予測する。
論文参考訳（メタデータ） (2019-07-22T12:42:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。