論文の概要: MixCE: Training Autoregressive Language Models by Mixing Forward and
Reverse Cross-Entropies
- arxiv url: http://arxiv.org/abs/2305.16958v1
- Date: Fri, 26 May 2023 14:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 14:25:39.929904
- Title: MixCE: Training Autoregressive Language Models by Mixing Forward and
Reverse Cross-Entropies
- Title(参考訳): MixCE: 前向きと逆エントロピーの混合による自己回帰言語モデルのトレーニング
- Authors: Shiyue Zhang, Shijie Wu, Ozan Irsoy, Steven Lu, Mohit Bansal, Mark
Dredze, David Rosenberg
- Abstract要約: 自己回帰言語モデルは、データ分布Pに対するモデル分布Qのクロスエントロピーを最小化することにより訓練される。
我々は,前と逆のクロスエントロピーを混合する目的であるMixCEを用いた学習を提案する。
その結果,複雑な復号化戦略を使わずに,より優れた生成テキストが得られることがわかった。
- 参考スコア(独自算出の注目度): 84.13303255150004
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive language models are trained by minimizing the cross-entropy of
the model distribution Q relative to the data distribution P -- that is,
minimizing the forward cross-entropy, which is equivalent to maximum likelihood
estimation (MLE). We have observed that models trained in this way may
"over-generalize", in the sense that they produce non-human-like text.
Moreover, we believe that reverse cross-entropy, i.e., the cross-entropy of P
relative to Q, is a better reflection of how a human would evaluate text
generated by a model. Hence, we propose learning with MixCE, an objective that
mixes the forward and reverse cross-entropies. We evaluate models trained with
this objective on synthetic data settings (where P is known) and real data, and
show that the resulting models yield better generated text without complex
decoding strategies. Our code and models are publicly available at
https://github.com/bloomberg/mixce-acl2023
- Abstract(参考訳): 自己回帰型言語モデルは、データ分布pに対するモデル分布qの交叉エントロピーを最小化し、すなわち、最大公約推定(mle)に相当する前方交叉エントロピーを最小化することによって訓練される。
この方法で訓練されたモデルは、非人間的なテキストを生成するという意味で「過度に一般化する」可能性がある。
さらに、逆のクロスエントロピー、すなわちQに対するPのクロスエントロピーは、人間がモデルによって生成されたテキストをどのように評価するかをよりよく反映していると信じている。
そこで我々は,前と逆のクロスエントロピーを混合する目的であるMixCEを用いた学習を提案する。
pが知られている)合成データ設定と実際のデータでトレーニングされたモデルを評価し、得られたモデルが複雑な復号戦略を伴わずにより良いテキストを生成することを示す。
私たちのコードとモデルはhttps://github.com/bloomberg/mixce-acl2023で公開されている。
関連論文リスト
- Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。
提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。
実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T10:54:04Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences [20.629333587044012]
本研究では,データキュレーションが生成モデルの反復的再学習に与える影響について検討する。
報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。
論文 参考訳(メタデータ) (2024-06-12T21:28:28Z) - Towards Model-Agnostic Posterior Approximation for Fast and Accurate Variational Autoencoders [22.77397537980102]
我々は,真のモデルの後部の決定論的,モデルに依存しない後部近似(MAPA)を計算可能であることを示す。
我々は,(1)MAPAが真の後部傾向を捉えた低次元合成データに対する予備的な結果を示し,(2)MAPAに基づく推論は,ベースラインよりも少ない計算でより優れた密度推定を行う。
論文 参考訳(メタデータ) (2024-03-13T20:16:21Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - Aligned Cross Entropy for Non-Autoregressive Machine Translation [120.15069387374717]
非自己回帰モデルの学習における代替的損失関数としてアライメントクロスエントロピー(AXE)を提案する。
AXEに基づく条件付きマスキング言語モデル(CMLM)のトレーニングは、主要なWMTベンチマークの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2020-04-03T16:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。