論文の概要: Text Generation by Learning from Demonstrations
- arxiv url: http://arxiv.org/abs/2009.07839v2
- Date: Wed, 3 Mar 2021 03:43:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 23:01:03.476581
- Title: Text Generation by Learning from Demonstrations
- Title(参考訳): 実演から学ぶことによるテキスト生成
- Authors: Richard Yuanzhe Pang, He He
- Abstract要約: テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
本稿では,重要な重み付けによって専門家によるデモンストレーションから学習する,最適化の容易なアルゴリズムGOLDを提案する。
自動評価と人的評価の両方で、GOLDでトレーニングされたモデルは、MLEとポリシー勾配によってトレーニングされたモデルよりも優れています。
- 参考スコア(独自算出の注目度): 17.549815256968877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current approaches to text generation largely rely on autoregressive models
and maximum likelihood estimation. This paradigm leads to (i) diverse but
low-quality samples due to mismatched learning objective and evaluation metric
(likelihood vs. quality) and (ii) exposure bias due to mismatched history
distributions (gold vs. model-generated). To alleviate these problems, we frame
text generation as an offline reinforcement learning (RL) problem with expert
demonstrations (i.e., the reference), where the goal is to maximize quality
given model-generated histories. We propose GOLD (generation by off-policy
learning from demonstrations): an easy-to-optimize algorithm that learns from
the demonstrations by importance weighting. Intuitively, GOLD upweights
confident tokens and downweights unconfident ones in the reference during
training, avoiding optimization issues faced by prior RL approaches that rely
on online data collection. According to both automatic and human evaluation,
models trained by GOLD outperform those trained by MLE and policy gradient on
summarization, question generation, and machine translation. Further, our
models are less sensitive to decoding algorithms and alleviate exposure bias.
- Abstract(参考訳): テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
このパラダイムは
(i)不一致学習目標と評価指標(類似度対品質)による多様だが質の低いサンプル
(ii)不一致履歴分布(金対モデル生成)による露出バイアス。
これらの問題を緩和するために,テキスト生成を,モデル生成履歴の質を最大化することを目的とした,専門家による実証(すなわち参照)によるオフライン強化学習(rl)問題として捉える。
提案手法は,重要度重み付けにより,実演から学習し易い最適化アルゴリズムであるgold (generation by off-policy learning from demonstrations)を提案する。
直感的には、GOLDのアップウェイトはトレーニング中に参照されたトークンを信頼できなくなり、オンラインデータ収集に依存する以前のRLアプローチが直面する最適化の問題を回避する。
自動評価と人的評価の両方により、GOLDで訓練されたモデルは、MLEで訓練されたモデルと、要約、質問生成、機械翻訳のポリシー勾配より優れている。
さらに,このモデルでは復号アルゴリズムに対する感度が低く,露光バイアスが軽減される。
関連論文リスト
- SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - GISTEmbed: Guided In-sample Selection of Training Negatives for Text
Embedding Fine-tuning [0.0]
GISTEmbedは、ガイドモデルによる対照的なトレーニングにおいて、バッチ内のネガティブな選択を強化する新しい戦略である。
MTEB(Massive Text Embedding Benchmark)に対してベンチマークされたGISTEmbedは、さまざまなモデルサイズで一貫したパフォーマンス改善を示している。
論文 参考訳(メタデータ) (2024-02-26T18:55:15Z) - An Information Theoretic Approach to Machine Unlearning [45.600917449314444]
学びの鍵となる課題は、モデルのパフォーマンスを保ちながら、必要なデータをタイムリーに忘れることである。
この研究では、ゼロショットのアンラーニングシナリオに対処し、未学習のアルゴリズムは、トレーニングされたモデルと忘れられるデータだけが与えられたデータを削除できなければならない。
モデルの幾何に基づいて、単純だが原則化されたゼロショットアンラーニング法を導出する。
論文 参考訳(メタデータ) (2024-02-02T13:33:30Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Error Norm Truncation: Robust Training in the Presence of Data Noise for Text Generation Models [39.37532848489779]
本稿では,ノイズの多いデータをトラストする標準学習目標に対する頑健な強化手法であるError Norm Truncation (ENT)を提案する。
ENTは,従来のソフト・ハード・トランケーション法よりも生成品質の向上を図っている。
論文 参考訳(メタデータ) (2023-10-02T01:30:27Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Semi-Supervised Learning Based on Reference Model for Low-resource TTS [32.731900584216724]
本稿では,ラベル付きターゲットデータに制限があるニューラルネットワークの半教師付き学習手法を提案する。
実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-10-25T07:48:07Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。