論文の概要: Integrating Geodesic Interpolation and Flow Matching for Non-Autoregressive Text Generation in Logit Space
- arxiv url: http://arxiv.org/abs/2411.16821v1
- Date: Mon, 25 Nov 2024 17:15:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 18:33:37.435715
- Title: Integrating Geodesic Interpolation and Flow Matching for Non-Autoregressive Text Generation in Logit Space
- Title(参考訳): ロジト空間における非自己回帰テキスト生成のための測地補間とフローマッチングの統合
- Authors: Egor Sevriugov, Ivan Oseledets,
- Abstract要約: 非自己回帰型言語モデルは、自然言語処理分野における自己回帰型モデルの効果的な代替手段として出現している。
本研究では,Kulback-Leibler分散測地学を用いて,離散列の初期分布と対象分布を補間する新しい流れマッチング手法を提案する。
- 参考スコア(独自算出の注目度): 4.347494885647007
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Non-autoregressive language models are emerging as effective alternatives to autoregressive models in the field of natural language processing, facilitating simultaneous token generation. This study introduces a novel flow matching approach that employs Kullback-Leibler (KL) divergence geodesics to interpolate between initial and target distributions for discrete sequences. We formulate a loss function designed to maximize the conditional likelihood of discrete tokens and demonstrate that its maximizer corresponds to the flow matching velocity during logit interpolation. Although preliminary experiments conducted on the TinyStories dataset yielded suboptimal results, we propose an empirical sampling scheme based on a pretrained denoiser that significantly enhances performance. Additionally, we present a more general hybrid approach that achieves strong performance on more complex datasets, such as Fine Web and Lamini Instruction.
- Abstract(参考訳): 非自己回帰型言語モデルは、自然言語処理の分野で自己回帰型モデルの効果的な代替手段として登場し、同時トークン生成を容易にしている。
そこで本研究では,Kulback-Leibler(KL)分散測地学を用いて,離散列の初期分布と対象分布を補間する新しい流れマッチング手法を提案する。
離散トークンの条件付き確率を最大化するために設計された損失関数を定式化し、最大化器が対流補間時の流速に一致することを示す。
TinyStoriesデータセットを用いて行った予備実験では, 性能を著しく向上させる事前学習型デノイザに基づく実験的なサンプリング手法を提案する。
さらに,Fine WebやLamini Instructionなど,複雑なデータセットに対して高いパフォーマンスを実現するための,より汎用的なハイブリッドアプローチを提案する。
関連論文リスト
- Parallel simulation for sampling under isoperimetry and score-based diffusion models [56.39904484784127]
データサイズが大きくなるにつれて、イテレーションコストの削減が重要な目標になります。
科学計算における初期値問題の並列シミュレーションの成功に触発されて,タスクをサンプリングするための並列Picard法を提案する。
本研究は,動力学に基づくサンプリング・拡散モデルの科学的計算におけるシミュレーション手法の潜在的利点を強調した。
論文 参考訳(メタデータ) (2024-12-10T11:50:46Z) - Simulation-Free Training of Neural ODEs on Paired Data [20.36333430055869]
我々は,NODEのシミュレーションフリートレーニングにフローマッチングフレームワークを用いる。
ペアデータ間で直接フローマッチングを適用することは、しばしば不定義のフローにつながることを示す。
データペアの埋め込み空間にフローマッチングを適用するための簡単な拡張を提案する。
論文 参考訳(メタデータ) (2024-10-30T11:18:27Z) - Generalization error of min-norm interpolators in transfer learning [2.7309692684728617]
最小ノルム補間器は、現代の機械学習アルゴリズムの暗黙の正規化限界として自然に現れる。
多くのアプリケーションでは、トレーニング中に限られた量のテストデータが利用できるが、この設定におけるmin-normの特性は十分に理解されていない。
我々はこれらの特徴を達成するために、新しい異方性局所法を確立した。
論文 参考訳(メタデータ) (2024-06-20T02:23:28Z) - On the Trajectory Regularity of ODE-based Diffusion Sampling [79.17334230868693]
拡散に基づく生成モデルは微分方程式を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
論文 参考訳(メタデータ) (2024-05-18T15:59:41Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for
Accelerated Seq2Seq Diffusion Models [58.450152413700586]
ガウス空間に基づく離散突然変異を再構成する学習において拡散モデルを容易にする軟吸収状態を導入する。
我々は、サンプリングプロセスの高速化のために、連続空間内で最先端のODEソルバを用いている。
提案手法は, トレーニング収束率を4倍に向上させ, 類似品質のサンプルを800倍高速に生成する。
論文 参考訳(メタデータ) (2023-10-09T15:29:10Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Sequential Ensembling for Semantic Segmentation [4.030520171276982]
我々は、複数の独立に訓練された最先端モデルの予測を組み合わせる一般的なアンサンブルアプローチをベンチマークする。
そこで本研究では,素なアンサンブルベースラインを大幅に上回る,逐次アンサンブルネットワークの強化にインスパイアされた新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-08T22:13:59Z) - Structured Optimal Variational Inference for Dynamic Latent Space Models [16.531262817315696]
動的ネットワークの潜在空間モデルについて検討し、その目的は、ペアの内積と潜在位置のインターセプトを推定することである。
後部推論と計算スケーラビリティのバランスをとるために、構造的平均場変動推論フレームワークを検討する。
論文 参考訳(メタデータ) (2022-09-29T22:10:42Z) - Interpolation-based Correlation Reduction Network for Semi-Supervised
Graph Learning [49.94816548023729]
補間型相関低減ネットワーク(ICRN)と呼ばれる新しいグラフコントラスト学習手法を提案する。
提案手法では,決定境界のマージンを大きくすることで,潜在特徴の識別能力を向上させる。
この2つの設定を組み合わせることで、豊富なラベル付きノードと稀に価値あるラベル付きノードから豊富な監視情報を抽出し、離散表現学習を行う。
論文 参考訳(メタデータ) (2022-06-06T14:26:34Z) - Dilated Continuous Random Field for Semantic Segmentation [6.1794523510406885]
平均場近似法は、セマンティックセグメンテーションのための現代連続ランダム場(CRF)ベースのソリューションの基礎を築いた。
本稿では,拡張スパース畳み込みモジュール(DSConv)を用いた大域的最適化により,平均場近似の制約を緩和することを提案する。
さらに、完全連結層の置換として、アダプティブグローバル平均プールとアダプティブグローバル最大プールが実装されている。
論文 参考訳(メタデータ) (2022-02-01T00:38:55Z) - Towards extraction of orthogonal and parsimonious non-linear modes from
turbulent flows [0.0]
本稿では,非線形モードの最小およびほぼ直交の集合を学習するための深い確率-神経-ネットワークアーキテクチャを提案する。
我々のアプローチは、$beta$-variational autoencoders($beta$-VAEs)と畳み込みニューラルネットワーク(CNNs)に基づいている。
論文 参考訳(メタデータ) (2021-09-03T13:38:51Z) - Posterior-Aided Regularization for Likelihood-Free Inference [23.708122045184698]
後補助正規化(PAR)は,モデル構造に関係なく,密度推定器の学習に適用可能である。
単一のニューラルネットワークを用いて逆KL項と相互情報項の両方を推定するPARの統一推定方法を提供する。
論文 参考訳(メタデータ) (2021-02-15T16:59:30Z) - Efficient Semi-Implicit Variational Inference [65.07058307271329]
効率的でスケーラブルな半単純外挿 (SIVI) を提案する。
本手法はSIVIの証拠を低勾配値の厳密な推測にマッピングする。
論文 参考訳(メタデータ) (2021-01-15T11:39:09Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。