論文の概要: MLE-guided parameter search for task loss minimization in neural
sequence modeling
- arxiv url: http://arxiv.org/abs/2006.03158v2
- Date: Mon, 5 Oct 2020 20:46:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 09:33:37.586212
- Title: MLE-guided parameter search for task loss minimization in neural
sequence modeling
- Title(参考訳): ニューラルシーケンスモデリングにおけるタスク損失最小化のためのMLE誘導パラメータ探索
- Authors: Sean Welleck, Kyunghyun Cho
- Abstract要約: ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用される。
本稿では,現在のパラメータとその周辺における乱探索の混合である更新方向の分布から,最大至適勾配の分布をサンプリングする,最大至適誘導パラメータ探索(MGS)を提案する。
以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端の大幅な削減を図り,シーケンスレベルの損失を最適化できることが示唆された。
- 参考スコア(独自算出の注目度): 83.83249536279239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural autoregressive sequence models are used to generate sequences in a
variety of natural language processing (NLP) tasks, where they are evaluated
according to sequence-level task losses. These models are typically trained
with maximum likelihood estimation, which ignores the task loss, yet
empirically performs well as a surrogate objective. Typical approaches to
directly optimizing the task loss such as policy gradient and minimum risk
training are based around sampling in the sequence space to obtain candidate
update directions that are scored based on the loss of a single sequence. In
this paper, we develop an alternative method based on random search in the
parameter space that leverages access to the maximum likelihood gradient. We
propose maximum likelihood guided parameter search (MGS), which samples from a
distribution over update directions that is a mixture of random search around
the current parameters and around the maximum likelihood gradient, with each
direction weighted by its improvement in the task loss. MGS shifts sampling to
the parameter space, and scores candidates using losses that are pooled from
multiple sequences. Our experiments show that MGS is capable of optimizing
sequence-level losses, with substantial reductions in repetition and
non-termination in sequence completion, and similar improvements to those of
minimum risk training in machine translation.
- Abstract(参考訳): ニューラル自己回帰シーケンスモデルは、さまざまな自然言語処理(NLP)タスクのシーケンスを生成するために使用され、シーケンスレベルのタスク損失に応じて評価される。
これらのモデルは通常、最大推定で訓練されるが、これはタスクの損失を無視するが、実証的には代理目的と同様に機能する。
方針勾配や最小リスクトレーニングなどのタスク損失を直接最適化するための典型的なアプローチは、シーケンス空間のサンプリングに基づいて、単一のシーケンスの損失に基づいて得られた候補更新方向を取得する。
本稿では,パラメータ空間におけるランダム探索に基づく,最大ラピッド勾配へのアクセスを利用した代替手法を提案する。
そこで本研究では,現在のパラメータ周辺のランダムな探索と最大度勾配の混合である更新方向の分布から,タスク損失の改善による各方向の重み付けを行った最大度誘導パラメータ探索(mgs)を提案する。
MGSはサンプリングをパラメータ空間にシフトし、複数のシーケンスからプールされた損失を使って候補をスコアする。
以上の結果から,MGS は,機械翻訳における最小リスクトレーニングに比べて,繰り返しや非終端を著しく低減し,シーケンスレベルの損失を最適化できることがわかった。
関連論文リスト
- Scalable Fine-tuning from Multiple Data Sources: A First-Order Approximation Approach [17.79010397902909]
目的タスクに対する言語モデル(LM)の微調整の問題について,$n$補助タスクの情報を用いて最適に検討する。
この問題には、NLPにおけるターゲット命令チューニングや、チェーン・オブ・ファインタニングにおけるデータ選択など、幅広い応用がある。
繰り返し学習せずにモデル微調整性能を推定する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-09-28T21:26:50Z) - Hessian Aware Low-Rank Perturbation for Order-Robust Continual Learning [19.850893012601638]
連続学習は、前のタスクから得た知識を忘れずに、一連のタスクを逐次学習することを目的としている。
本稿では,Hessian Aware Low-Rank Perturbationアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-11-26T01:44:01Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Unsupervised Learning of Initialization in Deep Neural Networks via
Maximum Mean Discrepancy [74.34895342081407]
本稿では,入力データに対する優れた初期化を求めるための教師なしアルゴリズムを提案する。
まず、パラメータ空間における各パラメータ構成が、d-way分類の特定の下流タスクに対応することに気付く。
次に、学習の成功は、初期パラメータの近傍で下流タスクがいかに多様であるかに直接関連していると推測する。
論文 参考訳(メタデータ) (2023-02-08T23:23:28Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Transfer Bayesian Meta-learning via Weighted Free Energy Minimization [37.51664463278401]
重要な前提は、メタトレーニングタスクとして知られる補助タスクが、デプロイ時に遭遇するタスクと同じ生成分布を共有することである。
本稿では,トランスファーメタラーニングのための重み付き自由エネルギー最小化(WFEM)を提案する。
論文 参考訳(メタデータ) (2021-06-20T15:17:51Z) - Optimal quantisation of probability measures using maximum mean
discrepancy [10.29438865750845]
何人かの研究者は、確率測度を定量化する方法として、最大平均誤差 (MMD) の最小化を提案している。
離散的候補集合よりもMDDを優しく最小化する逐次アルゴリズムを考える。
本手法を各反復時の候補集合のミニバッチに適用する変種について検討する。
論文 参考訳(メタデータ) (2020-10-14T13:09:48Z) - Fast OSCAR and OWL Regression via Safe Screening Rules [97.28167655721766]
順序付き$L_1$ (OWL)正規化回帰は、高次元スパース学習のための新しい回帰分析である。
近勾配法はOWL回帰を解くための標準手法として用いられる。
未知の順序構造を持つ原始解の順序を探索することにより、OWL回帰の最初の安全なスクリーニングルールを提案する。
論文 参考訳(メタデータ) (2020-06-29T23:35:53Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Resolving learning rates adaptively by locating Stochastic Non-Negative
Associated Gradient Projection Points using line searches [0.0]
ニューラルネットワークトレーニングにおける学習率は現在、高価なマニュアルや自動チューニングを使用したトレーニングの優先事項として決定されている。
本研究では,ニューラルネットワーク学習アルゴリズムの学習率を解くために,勾配のみの線探索を提案する。
論文 参考訳(メタデータ) (2020-01-15T03:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。