論文の概要: KL-geodesics flow matching with a novel sampling scheme
- arxiv url: http://arxiv.org/abs/2411.16821v2
- Date: Wed, 12 Feb 2025 06:54:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:46:55.289903
- Title: KL-geodesics flow matching with a novel sampling scheme
- Title(参考訳): 新しいサンプリング手法によるKL-ジオデシクス流れのマッチング
- Authors: Egor Sevriugov, Ivan Oseledets,
- Abstract要約: 非自己回帰型言語モデルは全てのトークンを同時に生成し、従来の自己回帰型モデルよりも潜在的に高速である。
テキスト生成のための条件付きフローマッチング手法について検討する。
- 参考スコア(独自算出の注目度): 4.347494885647007
- License:
- Abstract: Non-autoregressive language models generate all tokens simultaneously, offering potential speed advantages over traditional autoregressive models, but they face challenges in modeling the complex dependencies inherent in text data. In this work, we investigate a conditional flow matching approach for text generation. We represent tokens as one-hot vectors in a \(V\)-dimensional simplex and utilize geodesics under the Kullback-Leibler (KL) divergence, which correspond to linear interpolation in logit space. We provide a theoretical justification that maximizing the conditional likelihood \(P_{\theta}(x_1 \mid x_t, t)\) yields the exact flow matching velocity under logit interpolation. To address the suboptimal performance of basic inference, we propose a novel empirical sampling scheme that iteratively samples from the conditional distribution and introduces additional noise, significantly improving results despite lacking full theoretical underpinnings. Furthermore, we propose a hybrid inference method that combines the basic approach with the sampling scheme. This method demonstrates superior performance on both conditional and unconditional text generation experiments compared to previous SOTA method for discrete flow matching.
- Abstract(参考訳): 非自己回帰言語モデルは、すべてのトークンを同時に生成し、従来の自己回帰モデルよりも潜在的に高速な利点を提供するが、テキストデータに固有の複雑な依存関係をモデル化する際の課題に直面している。
本研究では,テキスト生成のための条件付きフローマッチング手法について検討する。
トークンを、(V)-次元単純体における1ホットベクトルとして表現し、ロジット空間における線形補間に対応するKL(Kullback-Leibler)発散の下で測地学を利用する。
条件付き確率 \(P_{\theta}(x_1 \mid x_t, t)\) を最大化する理論的正当性を与える。
そこで本研究では,条件分布から繰り返しサンプルを抽出し,追加ノイズを導入し,完全な理論的基盤を欠いた結果を大幅に改善する実験的なサンプリング手法を提案する。
さらに,基本手法とサンプリング手法を組み合わせたハイブリッド推論手法を提案する。
本手法は, 従来のSOTA法と比較して, 条件付きテキスト生成実験と非条件付きテキスト生成実験の両方で優れた性能を示す。
関連論文リスト
- Parallel simulation for sampling under isoperimetry and score-based diffusion models [56.39904484784127]
データサイズが大きくなるにつれて、イテレーションコストの削減が重要な目標になります。
科学計算における初期値問題の並列シミュレーションの成功に触発されて,タスクをサンプリングするための並列Picard法を提案する。
本研究は,動力学に基づくサンプリング・拡散モデルの科学的計算におけるシミュレーション手法の潜在的利点を強調した。
論文 参考訳(メタデータ) (2024-12-10T11:50:46Z) - On the Trajectory Regularity of ODE-based Diffusion Sampling [79.17334230868693]
拡散に基づく生成モデルは微分方程式を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
論文 参考訳(メタデータ) (2024-05-18T15:59:41Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Towards extraction of orthogonal and parsimonious non-linear modes from
turbulent flows [0.0]
本稿では,非線形モードの最小およびほぼ直交の集合を学習するための深い確率-神経-ネットワークアーキテクチャを提案する。
我々のアプローチは、$beta$-variational autoencoders($beta$-VAEs)と畳み込みニューラルネットワーク(CNNs)に基づいている。
論文 参考訳(メタデータ) (2021-09-03T13:38:51Z) - Posterior-Aided Regularization for Likelihood-Free Inference [23.708122045184698]
後補助正規化(PAR)は,モデル構造に関係なく,密度推定器の学習に適用可能である。
単一のニューラルネットワークを用いて逆KL項と相互情報項の両方を推定するPARの統一推定方法を提供する。
論文 参考訳(メタデータ) (2021-02-15T16:59:30Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。