論文の概要: EMO: Earth Mover Distance Optimization for Auto-Regressive Language
Modeling
- arxiv url: http://arxiv.org/abs/2310.04691v6
- Date: Tue, 30 Jan 2024 15:11:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 18:54:35.089480
- Title: EMO: Earth Mover Distance Optimization for Auto-Regressive Language
Modeling
- Title(参考訳): EMO: 自動回帰言語モデリングのためのアースモーバー距離最適化
- Authors: Siyu Ren, Zhiyong Wu, Kenny Q. Zhu
- Abstract要約: 自動回帰言語モデリングのためのアースモーバー距離最適化を提案する。
EMOは、その課題に対処するために、地球計算距離の本質的な性質を生かしている。
EMOはドメイン間のMLEよりも一貫して優れた言語モデリング性能を示す。
- 参考スコア(独自算出の注目度): 44.70756703071688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Neural language models are probabilistic models of human text. They are
predominantly trained using maximum likelihood estimation (MLE), which is
equivalent to minimizing the forward cross-entropy between the empirical data
distribution and the model distribution. However, various degeneration
phenomena are still widely observed when decoding from the distributions
learned by such models. We establish that the forward cross-entropy is
suboptimal as a distance metric for aligning human and model distribution due
to its (1) recall-prioritization (2) negative diversity ignorance and (3)
train-test mismatch. In this paper, we propose Earth Mover Distance
Optimization (EMO) for auto-regressive language modeling. EMO capitalizes on
the inherent properties of earth mover distance to address the aforementioned
challenges. Due to the high complexity of direct computation, we further
introduce a feasible upper bound for EMO to ease end-to-end training. Upon
extensive evaluation of language models trained using EMO and MLE. We find that
EMO demonstrates a consistently better language modeling performance than MLE
across domains. Moreover, EMO demonstrates noteworthy enhancements in
downstream performance with minimal fine-tuning on merely 25,000 sentences.
This highlights the tremendous potential of EMO as a lightweight calibration
method for enhancing large-scale pre-trained language models.
- Abstract(参考訳): ニューラル言語モデルは人間のテキストの確率モデルである。
それらは主に、経験的データ分布とモデル分布の間の前方のクロスエントロピーを最小化するmle(maximum likelihood estimation)を使用して訓練される。
しかし、これらのモデルで学習した分布から復号する際には、様々な退化現象が広く見られる。
その結果,(1)リコール優先性(2)負の多様性無知,(3)列車試験ミスマッチによる人間とモデル分布の整合のための距離指標として,前方方向のクロスエントロピーが準最適であることが判明した。
本稿では,自動回帰言語モデリングのための地球間距離最適化(EMO)を提案する。
EMOは、前述の課題に対処するために、地球移動器距離の本質的な性質を生かしている。
直接計算の複雑さが高いため、emoのエンドツーエンドトレーニングを容易にするために、さらに実現可能な上限を導入する。
EMOとMLEを用いて訓練した言語モデルの広範囲な評価を行う。
EMOはドメイン間のMLEよりも一貫して優れた言語モデリング性能を示す。
さらに、EMOは、わずか25,000の文で最小限の微調整を施して、下流のパフォーマンスを向上する。
これは、大規模な事前学習された言語モデルを強化するための軽量キャリブレーション方法としてのemoの膨大な可能性を強調している。
関連論文リスト
- Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。
170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。
実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文 参考訳(メタデータ) (2024-10-23T14:04:22Z) - TinyEmo: Scaling down Emotional Reasoning via Metric Projection [0.0]
TinyEmoは、感情的推論と分類のための小さなマルチモーダル言語モデルのファミリーである。
TinyEmoは感情の分類と感情の推論を行うことができる。
論文 参考訳(メタデータ) (2024-10-09T17:03:49Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - METRO: Efficient Denoising Pretraining of Large Scale Autoencoding
Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。
我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。
結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-04-13T21:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。