Fugu-MT 論文翻訳(概要): EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling

論文の概要: EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling

arxiv url: http://arxiv.org/abs/2310.04691v5
Date: Tue, 23 Jan 2024 03:25:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-24 12:52:04.201350
Title: EMO: Earth Mover Distance Optimization for Auto-Regressive Language Modeling
Title（参考訳）: EMO: 自動回帰言語モデリングのためのアースモーバー距離最適化
Authors: Siyu Ren, Zhiyong Wu, Kenny Q. Zhu
Abstract要約: 自動回帰言語モデリングのためのアースモーバー距離最適化を提案する。 EMOは、その課題に対処するために、地球計算距離の本質的な性質を生かしている。 EMOはドメイン間のMLEよりも一貫して優れた言語モデリング性能を示す。
参考スコア（独自算出の注目度）: 44.70756703071688
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Neural language models are probabilistic models of human text. They are predominantly trained using maximum likelihood estimation (MLE), which is equivalent to minimizing the forward cross-entropy between the empirical data distribution and the model distribution. However, various degeneration phenomena are still widely observed when decoding from the distributions learned by such models. We establish that the forward cross-entropy is suboptimal as a distance metric for aligning human and model distribution due to its (1) recall-prioritization (2) negative diversity ignorance and (3) train-test mismatch. In this paper, we propose Earth Mover Distance Optimization (EMO) for auto-regressive language modeling. EMO capitalizes on the inherent properties of earth mover distance to address the aforementioned challenges. Due to the high complexity of direct computation, we further introduce a feasible upper bound for EMO to ease end-to-end training. Upon extensive evaluation of language models trained using EMO and MLE. We find that EMO demonstrates a consistently better language modeling performance than MLE across domains. Moreover, EMO demonstrates noteworthy enhancements in downstream performance with minimal fine-tuning on merely 25,000 sentences. This highlights the tremendous potential of EMO as a lightweight calibration method for enhancing large-scale pre-trained language models.
Abstract（参考訳）: ニューラル言語モデルは人間のテキストの確率モデルである。それらは主に、経験的データ分布とモデル分布の間の前方のクロスエントロピーを最小化するmle(maximum likelihood estimation)を使用して訓練される。しかし、これらのモデルで学習した分布から復号する際には、様々な退化現象が広く見られる。その結果,(1)リコール優先性(2)負の多様性無知,(3)列車試験ミスマッチによる人間とモデル分布の整合のための距離指標として,前方方向のクロスエントロピーが準最適であることが判明した。本稿では,自動回帰言語モデリングのための地球間距離最適化(EMO)を提案する。 EMOは、前述の課題に対処するために、地球移動器距離の本質的な性質を生かしている。直接計算の複雑さが高いため、emoのエンドツーエンドトレーニングを容易にするために、さらに実現可能な上限を導入する。 EMOとMLEを用いて訓練した言語モデルの広範囲な評価を行う。 EMOはドメイン間のMLEよりも一貫して優れた言語モデリング性能を示す。さらに、EMOは、わずか25,000の文で最小限の微調整を施して、下流のパフォーマンスを向上する。これは、大規模な事前学習された言語モデルを強化するための軽量キャリブレーション方法としてのemoの膨大な可能性を強調している。

関連論文リスト

Beyond Language Modeling: An Exploration of Multimodal Pretraining [125.34714978184638]
我々は、制御されたオフスクラッチ事前学習実験を通して経験的明瞭度を提供する。我々はトランスフュージョン・フレームワークを採用し、言語と視覚の拡散を次々に予測する。我々は、MoEアーキテクチャが、言語によって要求される高いモデル容量を提供することにより、このスケーリング非対称性を調和させることを実証する。
論文参考訳（メタデータ） (2026-03-03T18:58:00Z)
RobustDebias: Debiasing Language Models using Distributionally Robust Optimization [0.39774453005697336]
そこで本研究では,分散ロバスト最適化をデバイアス言語モデルに適用する機構である itRobustDebias を提案する。我々のアプローチは、微調整中にモデルを複数の人口層に分散させ、任意のデータセットやタスクに一般化する。
論文参考訳（メタデータ） (2026-01-30T23:49:11Z)
Simulated Annealing Enhances Theory-of-Mind Reasoning in Autoregressive Language Models [1.4323566945483497]
心の理論 (ToM) の課題は、自分自身や他人の潜伏した精神状態についての推論に決定的に依存する。付加的な重み付けや検証を行うことなく,ToMの強力な能力がベースモデルから直接回復可能であることを示す。
論文参考訳（メタデータ） (2026-01-18T05:51:30Z)
MiCRo: Mixture Modeling and Context-aware Routing for Personalized Preference Learning [22.154640547329738]
大規模な二元選好データセットを活用することにより、パーソナライズされた選好学習を強化する2段階フレームワークであるMiCRoを紹介する。最初の段階では、MiCRoは様々な人間の嗜好を捉えるためにコンテキスト対応の混合モデリング手法を導入している。第2段階では、MiCRoは、特定のコンテキストに基づいて混合重みを動的に適応してあいまいさを解決するオンラインルーティング戦略を統合する。
論文参考訳（メタデータ） (2025-05-30T17:44:28Z)
Using (Not so) Large Language Models for Generating Simulation Models in a Formal DSL -- A Study on Reaction Networks [0.0]
我々は、自然言語をシミュレーションモデルに定式化するために、Large Language Modelがどのように使用されるかを評価する。我々は,微調整と評価の基礎となる合成データ生成装置を開発した。我々の微調整ミストラルモデルでは,84.5%のケースで地上の真理シミュレーションモデルを復元できる。
論文参考訳（メタデータ） (2025-03-03T15:48:01Z)
Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。 170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文参考訳（メタデータ） (2024-10-23T14:04:22Z)
TinyEmo: Scaling down Emotional Reasoning via Metric Projection [0.0]
TinyEmoは、感情的推論と分類のための小さなマルチモーダル言語モデルのファミリーである。 TinyEmoは感情の分類と感情の推論を行うことができる。
論文参考訳（メタデータ） (2024-10-09T17:03:49Z)
Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2024-05-29T17:59:07Z)
eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文参考訳（メタデータ） (2023-03-20T19:20:34Z)
Your Autoregressive Generative Model Can be Better If You Treat It as an Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。 E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文参考訳（メタデータ） (2022-06-26T10:58:41Z)
METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals [151.3601429216877]
本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。我々は「モデル生成dEnoising TRaining Objective」(METRO)というレシピを提案する。結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。
論文参考訳（メタデータ） (2022-04-13T21:39:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。