論文の概要: Latent Flow Transformer
- arxiv url: http://arxiv.org/abs/2505.14513v1
- Date: Tue, 20 May 2025 15:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.470597
- Title: Latent Flow Transformer
- Title(参考訳): 潜流変圧器
- Authors: Yen-Chen Wu, Feng-Ting Liao, Meng-Hsi Chen, Pei-Chen Ho, Farhang Nabiei, Da-shan Shiu,
- Abstract要約: Latent Flow Transformer (LFT)は、フローマッチングによってトレーニングされた単一の学習されたトランスポートオペレータによって、レイヤのブロックを置き換える。
LFTは、24層のうち6層を圧縮し、2層を直接スキップする性能で訓練した。
FWで訓練すると、LFTはさらに12層を1層に蒸留し、KLを0.736に減らし、3層をスキップする(0.932)。
- 参考スコア(独自算出の注目度): 7.590440369841439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers, the standard implementation for large language models (LLMs), typically consist of tens to hundreds of discrete layers. While more layers can lead to better performance, this approach has been challenged as far from efficient, especially given the superiority of continuous layers demonstrated by diffusion and flow-based models for image generation. We propose the Latent Flow Transformer (LFT), which replaces a block of layers with a single learned transport operator trained via flow matching, offering significant compression while maintaining compatibility with the original architecture. Additionally, we address the limitations of existing flow-based methods in \textit{preserving coupling} by introducing the Flow Walking (FW) algorithm. On the Pythia-410M model, LFT trained with flow matching compresses 6 of 24 layers and outperforms directly skipping 2 layers (KL Divergence of LM logits at 0.407 vs. 0.529), demonstrating the feasibility of this design. When trained with FW, LFT further distills 12 layers into one while reducing the KL to 0.736 surpassing that from skipping 3 layers (0.932), significantly narrowing the gap between autoregressive and flow-based generation paradigms.
- Abstract(参考訳): 大規模言語モデル(LLM)の標準実装であるトランスフォーマーは、典型的には数十から数百の離散層で構成されている。
より多くのレイヤがパフォーマンス向上につながるが、特に拡散によって示される連続層と画像生成のためのフローベースモデルが優れていることを考えると、このアプローチは効率的ではない。
本稿では,フローマッチングによって訓練した単一学習トランスポート演算子を用いて,レイヤブロックを置換するLlatent Flow Transformer (LFT)を提案し,元のアーキテクチャとの互換性を維持しつつ,大幅な圧縮を実現する。
さらに,フローウォーキング(FW)アルゴリズムを導入し,既存のフローベース手法の限界に対処する。
LFT は Pythia-410M モデルで、24層のうち6層を圧縮し、2層を直接スキップする(KL LMロジットの0.407対0.529での分割)。
FWで訓練すると、LFTはさらに12層を1層に蒸留し、KLを0.932から0.736に減らし、自己回帰とフローベースの生成パラダイムのギャップを著しく狭める。
関連論文リスト
- AdaFortiTran: An Adaptive Transformer Model for Robust OFDM Channel Estimation [22.40154714677385]
本稿では,アダフォーティトラン(Adaptive Fortified Transformer, AdaFortiTran)を提案する。
AdaFortiTranは最先端モデルと比較して平均2乗誤差(MSE)を最大6dB削減する。
論文 参考訳(メタデータ) (2025-05-14T02:22:37Z) - FFN Fusion: Rethinking Sequential Computation in Large Language Models [16.8637819797503]
本稿では,大規模言語モデルにおける逐次計算を減らしたアーキテクチャ最適化手法であるFFN Fusionを紹介する。
我々は、このようなシーケンスを同定し、融合し、それらを並列操作に変換するための、原則化された方法論を開発した。
これらの手法をLlama-3.1-405B-Instructに適用することにより、推論遅延の1.71倍の高速化と、トークンあたりのコストの35倍の削減を実現する、効率的かつ間もなく公開されるモデルを構築する。
論文 参考訳(メタデータ) (2025-03-24T17:20:35Z) - Deeply Supervised Flow-Based Generative Models [16.953166973699577]
DeepFlowは、層間通信によるベロシティ表現を強化する新しいフレームワークである。
DeepFlowは内部のベロシティアライメントを通じて改善されたディープインスペクションによって駆動され、ImageNet上で同等のパフォーマンスで8倍高速に収束する。
DeepFlowはまた、MSCOCOとゼロショットGenEvalの評価によって証明されたように、テキストから画像生成タスクのベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-03-18T17:58:08Z) - ARFlow: Autogressive Flow with Hybrid Linear Attention [48.707933347079894]
フローモデルは、徐々に現実的なイメージを生成するのに効果的である。
彼らは、生成プロセス中に長距離依存関係をキャプチャするのに苦労します。
本稿では,自動回帰モデリングをフローモデルに統合することを提案する。
論文 参考訳(メタデータ) (2025-01-27T14:33:27Z) - One-Step Diffusion Distillation through Score Implicit Matching [74.91234358410281]
本稿では,Score Implicit Matching (SIM) を用いて,事前学習した拡散モデルを単一ステップジェネレータモデルに蒸留する手法を提案する。
SIMはワンステップジェネレータに対して強い経験的性能を示す。
リードトランスに基づく拡散モデルにSIMを適用することにより,テキスト・ツー・イメージ生成のための単一ステップ生成器を蒸留する。
論文 参考訳(メタデータ) (2024-10-22T08:17:20Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive
Generation [29.30999290150683]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - DeepNet: Scaling Transformers to 1,000 Layers [106.33669415337135]
トランスフォーマーの残差接続を修正するための新しい正規化関数(DeepNorm)を導入する。
詳細な理論解析により、モデル更新は安定な方法でバウンドできることが示されている。
トランスフォーマーを1,000層まで拡張することに成功したが、これは従来のディープトランスフォーマーよりも1桁も深い。
論文 参考訳(メタデータ) (2022-03-01T15:36:38Z) - Normalizing Flows with Multi-Scale Autoregressive Priors [131.895570212956]
マルチスケール自己回帰前処理(mAR)を通した遅延空間におけるチャネルワイド依存性を導入する。
我々のmARは、分割結合フロー層(mAR-SCF)を持つモデルに先立って、複雑なマルチモーダルデータの依存関係をよりよく捉えます。
我々は,mAR-SCFにより画像生成品質が向上し,FIDとインセプションのスコアは最先端のフローベースモデルと比較して向上したことを示す。
論文 参考訳(メタデータ) (2020-04-08T09:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。