論文の概要: Generating Sequences by Learning to Self-Correct
- arxiv url: http://arxiv.org/abs/2211.00053v1
- Date: Mon, 31 Oct 2022 18:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 13:52:32.065300
- Title: Generating Sequences by Learning to Self-Correct
- Title(参考訳): 自己補正学習によるシーケンス生成
- Authors: Sean Welleck, Ximing Lu, Peter West, Faeze Brahman, Tianxiao Shen,
Daniel Khashabi, Yejin Choi
- Abstract要約: 自己補正(Self-Correction)は、不完全な世代を反復的に修正する独立した修正器から不完全なベースジェネレータを分離する。
本稿では,3つの多種多様なタスクにおいて,自己補正がベースジェネレータを改善することを示す。
- 参考スコア(独自算出の注目度): 64.0249217590888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence generation applications require satisfying semantic constraints,
such as ensuring that programs are correct, using certain keywords, or avoiding
undesirable content. Language models, whether fine-tuned or prompted with
few-shot demonstrations, frequently violate these constraints, and lack a
mechanism to iteratively revise their outputs. Moreover, some powerful language
models are of extreme scale or inaccessible, making it inefficient, if not
infeasible, to update their parameters for task-specific adaptation. We present
Self-Correction, an approach that decouples an imperfect base generator (an
off-the-shelf language model or supervised sequence-to-sequence model) from a
separate corrector that learns to iteratively correct imperfect generations. To
train the corrector, we propose an online training procedure that can use
either scalar or natural language feedback on intermediate imperfect
generations. We show that Self-Correction improves upon the base generator in
three diverse generation tasks - mathematical program synthesis,
lexically-constrained generation, and toxicity control - even when the
corrector is much smaller than the base generator.
- Abstract(参考訳): シーケンス生成アプリケーションは、プログラムが正しいことの保証、特定のキーワードの使用、望ましくないコンテンツの回避など、セマンティックな制約を満たす必要がある。
微調整されたり、数発のデモでトリガーされた言語モデルは、しばしばこれらの制約に違反し、出力を反復的に修正するメカニズムが欠如している。
さらに、いくつかの強力な言語モデルは極端なスケールまたは到達不能であり、タスク固有の適応のためにパラメータを更新する非効率である。
本稿では,不完全生成器(オフザシェルフ言語モデルあるいは教師付きシーケンス・ツー・シーケンスモデル)を別個の修正器から分離し,不完全生成を反復的に補正する手法であるSelf-Correctionを提案する。
修正子を訓練するために,中間的不完全世代に対してスカラーあるいは自然言語フィードバックを使用できるオンライン学習手順を提案する。
自己補正は, ベースジェネレータがベースジェネレータよりもはるかに小さい場合でも, 数学的プログラム合成, 語彙制約生成, 毒性制御の3つのタスクにおいて, ベースジェネレータを改良することを示す。
関連論文リスト
- SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Calibrating Sequence likelihood Improves Conditional Language Generation [39.35161650538767]
条件言語モデルは主に最大推定(MLE)を用いて訓練される
MLEの訓練されたモデルは、文脈が与えられた場合、高い確率を可算列に割り当てるが、モデル確率は、品質によって正確なランク順生成列を割り当てないことが多い。
本稿では,モデルの潜在空間における参照シーケンスとの整合性を高めるために,モデル生成シーケンスのキャリブレーションを行うSLiC(Sequence chance calibration)を提案する。
論文 参考訳(メタデータ) (2022-09-30T19:16:16Z) - DIRECTOR: Generator-Classifiers For Supervised Language Modeling [27.86870968048833]
現在の言語モデルは難易度は低いが、結果として生じる世代は依然として有毒な反応、反復性、矛盾に悩まされている。
我々は,各出力トークンに対して,言語モデリングと分類ヘッドを併用した統一型ジェネレータからなる新しいアーキテクチャであるc Directorを導入する。
論文 参考訳(メタデータ) (2022-06-15T17:44:08Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Sequence-to-Action: Grammatical Error Correction with Action Guided
Sequence Generation [21.886973310718457]
本稿では,文法的誤り訂正のための新しいSequence-to-Action(S2A)モジュールを提案する。
S2Aモジュールは、ソースとターゲット文を共同で入力とし、トークンレベルのアクションシーケンスを自動的に生成することができる。
我々のモデルはセq2seqベースラインを一貫して上回り、過補正問題を著しく軽減することができる。
論文 参考訳(メタデータ) (2022-05-22T17:47:06Z) - Discovering Non-monotonic Autoregressive Orderings with Variational
Inference [67.27561153666211]
我々は、訓練データから高品質な生成順序を純粋に検出する、教師なし並列化可能な学習装置を開発した。
エンコーダを非因果的注意を持つトランスフォーマーとして実装し、1つのフォワードパスで置換を出力する。
言語モデリングタスクにおける経験的結果から,我々の手法は文脈認識であり,一定の順序と競合する,あるいはより優れた順序を見つけることができる。
論文 参考訳(メタデータ) (2021-10-27T16:08:09Z) - Contrastive Learning with Adversarial Perturbations for Conditional Text
Generation [49.055659008469284]
seq2seqモデルのコントラスト学習のための正負のサンプルを生成する原則的な方法を提案する。
具体的には、入力シーケンスに小さな摂動を加えることで、条件付き可能性を最小限に抑えるネガティブな例を生成します。
提案手法は,3つのテキスト生成タスクにおけるSeq2seqの一般化を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-12-14T06:20:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。