論文の概要: Integrating Geodesic Interpolation and Flow Matching for Non-Autoregressive Text Generation in Logit Space
- arxiv url: http://arxiv.org/abs/2411.16821v1
- Date: Mon, 25 Nov 2024 17:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:37:11.976344
- Title: Integrating Geodesic Interpolation and Flow Matching for Non-Autoregressive Text Generation in Logit Space
- Title(参考訳): ロジト空間における非自己回帰テキスト生成のための測地補間とフローマッチングの統合
- Authors: Egor Sevriugov, Ivan Oseledets,
- Abstract要約: 非自己回帰型言語モデルは、自然言語処理分野における自己回帰型モデルの効果的な代替手段として出現している。
本研究では,Kulback-Leibler分散測地学を用いて,離散列の初期分布と対象分布を補間する新しい流れマッチング手法を提案する。
- 参考スコア(独自算出の注目度): 4.347494885647007
- License:
- Abstract: Non-autoregressive language models are emerging as effective alternatives to autoregressive models in the field of natural language processing, facilitating simultaneous token generation. This study introduces a novel flow matching approach that employs Kullback-Leibler (KL) divergence geodesics to interpolate between initial and target distributions for discrete sequences. We formulate a loss function designed to maximize the conditional likelihood of discrete tokens and demonstrate that its maximizer corresponds to the flow matching velocity during logit interpolation. Although preliminary experiments conducted on the TinyStories dataset yielded suboptimal results, we propose an empirical sampling scheme based on a pretrained denoiser that significantly enhances performance. Additionally, we present a more general hybrid approach that achieves strong performance on more complex datasets, such as Fine Web and Lamini Instruction.
- Abstract(参考訳): 非自己回帰型言語モデルは、自然言語処理の分野で自己回帰型モデルの効果的な代替手段として登場し、同時トークン生成を容易にしている。
そこで本研究では,Kulback-Leibler(KL)分散測地学を用いて,離散列の初期分布と対象分布を補間する新しい流れマッチング手法を提案する。
離散トークンの条件付き確率を最大化するために設計された損失関数を定式化し、最大化器が対流補間時の流速に一致することを示す。
TinyStoriesデータセットを用いて行った予備実験では, 性能を著しく向上させる事前学習型デノイザに基づく実験的なサンプリング手法を提案する。
さらに,Fine WebやLamini Instructionなど,複雑なデータセットに対して高いパフォーマンスを実現するための,より汎用的なハイブリッドアプローチを提案する。
関連論文リスト
- Parallel simulation for sampling under isoperimetry and score-based diffusion models [56.39904484784127]
データサイズが大きくなるにつれて、イテレーションコストの削減が重要な目標になります。
科学計算における初期値問題の並列シミュレーションの成功に触発されて,タスクをサンプリングするための並列Picard法を提案する。
本研究は,動力学に基づくサンプリング・拡散モデルの科学的計算におけるシミュレーション手法の潜在的利点を強調した。
論文 参考訳(メタデータ) (2024-12-10T11:50:46Z) - On the Trajectory Regularity of ODE-based Diffusion Sampling [79.17334230868693]
拡散に基づく生成モデルは微分方程式を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
論文 参考訳(メタデータ) (2024-05-18T15:59:41Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Towards extraction of orthogonal and parsimonious non-linear modes from
turbulent flows [0.0]
本稿では,非線形モードの最小およびほぼ直交の集合を学習するための深い確率-神経-ネットワークアーキテクチャを提案する。
我々のアプローチは、$beta$-variational autoencoders($beta$-VAEs)と畳み込みニューラルネットワーク(CNNs)に基づいている。
論文 参考訳(メタデータ) (2021-09-03T13:38:51Z) - Posterior-Aided Regularization for Likelihood-Free Inference [23.708122045184698]
後補助正規化(PAR)は,モデル構造に関係なく,密度推定器の学習に適用可能である。
単一のニューラルネットワークを用いて逆KL項と相互情報項の両方を推定するPARの統一推定方法を提供する。
論文 参考訳(メタデータ) (2021-02-15T16:59:30Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。