Fugu-MT 論文翻訳(概要): Beyond MLE: Convex Learning for Text Generation

論文の概要: Beyond MLE: Convex Learning for Text Generation

arxiv url: http://arxiv.org/abs/2310.17217v1
Date: Thu, 26 Oct 2023 08:08:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 21:33:15.966226
Title: Beyond MLE: Convex Learning for Text Generation
Title（参考訳）: beyond mle: テキスト生成のための凸学習
Authors: Chenze Shao and Zhengrui Ma and Min Zhang and Yang Feng
Abstract要約: 我々は、機械翻訳のようなクローズドエンドテキスト生成タスクにおいて、最大推定(MLE)が必ずしも必要であり、最適であるとは限らないと論じる。本研究では,データ分布全体を推定することなく,テキスト生成モデルを高い確率出力に集中させることができる,凸関数に基づく新たな学習目標のクラスを提案する。
参考スコア（独自算出の注目度）: 34.99340118597274
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Maximum likelihood estimation (MLE) is a statistical method used to estimate the parameters of a probability distribution that best explain the observed data. In the context of text generation, MLE is often used to train generative language models, which can then be used to generate new text. However, we argue that MLE is not always necessary and optimal, especially for closed-ended text generation tasks like machine translation. In these tasks, the goal of model is to generate the most appropriate response, which does not necessarily require it to estimate the entire data distribution with MLE. To this end, we propose a novel class of training objectives based on convex functions, which enables text generation models to focus on highly probable outputs without having to estimate the entire data distribution. We investigate the theoretical properties of the optimal predicted distribution when applying convex functions to the loss, demonstrating that convex functions can sharpen the optimal distribution, thereby enabling the model to better capture outputs with high probabilities. Experiments on various text generation tasks and models show the effectiveness of our approach. It enables autoregressive models to bridge the gap between greedy and beam search, and facilitates the learning of non-autoregressive models with a maximum improvement of 9+ BLEU points. Moreover, our approach also exhibits significant impact on large language models (LLMs), substantially enhancing their generative capability on various tasks. Source code is available at \url{https://github.com/ictnlp/Convex-Learning}.
Abstract（参考訳）: 最大確率推定(MLE)は、観測されたデータを最もよく説明する確率分布のパラメータを推定する統計手法である。テキスト生成の文脈では、MLEは生成言語モデルのトレーニングによく使用され、新しいテキストを生成するために使われる。しかし、機械翻訳のようなクローズドなテキスト生成タスクでは、MLEは必ずしも必要で最適ではない。これらのタスクにおいて、モデルの目的は最も適切な応答を生成することである。そこで本研究では,データ分布全体を推定することなく,テキスト生成モデルが高確率出力に集中できるような,凸関数に基づく新たな学習目標のクラスを提案する。本研究では,損失に対して凸関数を適用する場合の最適分布の理論特性について検討し,凸関数が最適分布を研ぎ澄ませることを示す。各種テキスト生成タスクおよびモデルの実験により,本手法の有効性が示された。自己回帰モデルにより、欲求とビームサーチのギャップを埋めることができ、最大で9以上のBLEU点を持つ非自己回帰モデルの学習を容易にする。さらに,本手法は大規模言語モデル (LLM) に大きな影響を与え,様々なタスクにおける生成能力を大幅に向上させる。ソースコードは \url{https://github.com/ictnlp/convex-learning} で入手できる。

関連論文リスト

SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文参考訳（メタデータ） (2025-08-07T03:50:48Z)
Efficient Response Generation Strategy Selection for Fine-Tuning Large Language Models Through Self-Aligned Perplexity [28.717420152590204]
細調整された大言語モデル(LLM)は、通常、大量の入出力ペアを生成することに依存する。近年の研究では、これらのトレーニングアウトプットの生成が微調整モデルの性能に大きく影響を与えることが示されている。本稿では,特定の目標LLMに対する適合性を推定するために,生成したデータの小さなサブセットを評価する,スケーラブルな近似手法を提案する。
論文参考訳（メタデータ） (2025-02-17T13:14:11Z)
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文参考訳（メタデータ） (2024-10-22T06:43:28Z)
Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2～3倍の高速化を実現した。
論文参考訳（メタデータ） (2024-07-22T18:00:00Z)
Zero-shot LLM-guided Counterfactual Generation: A Case Study on NLP Model Evaluation [15.254775341371364]
ゼロショット対実生成に大規模言語モデルを活用する可能性について検討する。我々は,この生成を容易にするための構造化パイプラインを提案し,近年のLLMにおける命令追従とテキスト理解の能力を効果的に活用できるという仮説を立てた。
論文参考訳（メタデータ） (2024-05-08T03:57:45Z)
Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文参考訳（メタデータ） (2023-10-06T16:36:08Z)
ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文参考訳（メタデータ） (2023-07-01T18:16:06Z)
Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文参考訳（メタデータ） (2023-06-25T02:39:19Z)
Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。言語生成に適用するための実践的境界を開発する。本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文参考訳（メタデータ） (2023-02-26T16:32:52Z)
Expected Information Maximization: Using the I-Projection for Mixture Density Estimation [22.096148237257644]
高度にマルチモーダルなデータのモデリングは、機械学習において難しい問題である。我々は,予測情報最大化(EIM)と呼ばれる新しいアルゴリズムを提案する。我々のアルゴリズムは最近のGANアプローチよりもI射影の計算に効果的であることを示す。
論文参考訳（メタデータ） (2020-01-23T17:24:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。