Fugu-MT 論文翻訳(概要): LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding

論文の概要: LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding

arxiv url: http://arxiv.org/abs/2410.03355v1
Date: Fri, 4 Oct 2024 12:21:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 22:48:52.593195
Title: LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding
Title（参考訳）: LANTERN:Relaxed Speculative Decodingによる視覚自己回帰モデルの高速化
Authors: Doohyuk Jang, Sihwan Park, June Yong Yang, Yeonsung Jung, Jihun Yun, Souvik Kundu, Sung-Yub Kim, Eunho Yang,
Abstract要約: 実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。 LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.76times$のスピードアップを増大させる。
参考スコア（独自算出の注目度）: 30.630803933771865
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Auto-Regressive (AR) models have recently gained prominence in image generation, often matching or even surpassing the performance of diffusion models. However, one major limitation of AR models is their sequential nature, which processes tokens one at a time, slowing down generation compared to models like GANs or diffusion-based methods that operate more efficiently. While speculative decoding has proven effective for accelerating LLMs by generating multiple tokens in a single forward, its application in visual AR models remains largely unexplored. In this work, we identify a challenge in this setting, which we term \textit{token selection ambiguity}, wherein visual AR models frequently assign uniformly low probabilities to tokens, hampering the performance of speculative decoding. To overcome this challenge, we propose a relaxed acceptance condition referred to as LANTERN that leverages the interchangeability of tokens in latent space. This relaxation restores the effectiveness of speculative decoding in visual AR models by enabling more flexible use of candidate tokens that would otherwise be prematurely rejected. Furthermore, by incorporating a total variation distance bound, we ensure that these speed gains are achieved without significantly compromising image quality or semantic coherence. Experimental results demonstrate the efficacy of our method in providing a substantial speed-up over speculative decoding. In specific, compared to a na\"ive application of the state-of-the-art speculative decoding, LANTERN increases speed-ups by $\mathbf{1.75}\times$ and $\mathbf{1.76}\times$, as compared to greedy decoding and random sampling, respectively, when applied to LlamaGen, a contemporary visual AR model.
Abstract（参考訳）: オートレグレッシブ(AR)モデルは画像生成において最近注目され、しばしば拡散モデルの性能と一致するか、さらに上回っている。しかし、ARモデルの1つの大きな制限は、そのシーケンシャルな性質であり、トークンを一度に1つずつ処理し、より効率的に動作するGANや拡散ベースの方法と比較すると、生成を遅くする。投機的復号化は、1つの前方で複数のトークンを生成することでLCMを加速させる効果が証明されているが、視覚ARモデルにおけるその応用はいまだに探索されていない。本稿では,視覚的ARモデルがトークンに低確率を割り当てることによって,投機的復号化の性能を損なうような,この設定における課題を特定する。この課題を克服するために、潜在空間におけるトークンの交換性を活用するLANTERNと呼ばれる緩和された受け入れ条件を提案する。この緩和は、未熟に拒絶される候補トークンをより柔軟な使用を可能にすることで、視覚的ARモデルにおける投機的復号化の有効性を回復させる。さらに、全変動距離境界を組み込むことで、画像の品質やセマンティックコヒーレンスを著しく損なうことなく、これらの速度ゲインを実現する。実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。具体的には、最先端の投機的復号法である na\ の応用と比較して、LANTERN は現代のビジュアルARモデルである LlamaGen に適用すると、greedy の復号法とランダムサンプリング法と比較して、$\mathbf{1.75}\times$ と $\mathbf{1.76}\times$ のスピードアップを増大させる。

関連論文リスト

Next Tokens Denoising for Speech Synthesis [51.320443764269726]
Dragon-FMは、ARとフローマッチングを統合する新しいテキスト音声(TTS)設計である。毎秒12.5トークンのコンパクトレートで48kHzのオーディオトークンをチャンクで処理する。ポッドキャストデータセットの実験では、高品質なゼロショットポッドキャストを効率的に生成できることが示されている。
論文参考訳（メタデータ） (2025-07-30T15:03:36Z)
DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。本研究は,それらの認知過程と強化学習手法について考察する。我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文参考訳（メタデータ） (2025-06-25T17:35:47Z)
Plug-and-Play Context Feature Reuse for Efficient Masked Generation [36.563229330549284]
MGM(Masked Generative Model)は、画像合成の強力なフレームワークとして登場した。本稿では,MGMの推論を高速化するプラグイン・アンド・プレイモジュールであるReCAP(Reused Context-Aware Prediction)を紹介する。
論文参考訳（メタデータ） (2025-05-25T10:57:35Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文参考訳（メタデータ） (2025-04-24T13:57:08Z)
LANTERN++: Enhancing Relaxed Speculative Decoding with Static Tree Drafting for Visual Auto-regressive Models [31.1717739483817]
LANTERN++は、静的ツリーのドラフトと、調整された緩和された受け入れ条件を統合するフレームワークである。最先端のビジュアルARモデルの実験では、LANTERN++は推論を著しく加速し、標準的なARデコーディングよりも最大$mathbftimes 2.56$のスピードアップを実現している。
論文参考訳（メタデータ） (2025-02-10T11:05:18Z)
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens [5.949779668853557]
ResGenは、サンプリング速度を損なうことなく高忠実度サンプルを生成する効率的なRVQベースの離散拡散モデルである。我々は,ImageNet 256x256における条件付き画像生成とゼロショット音声合成の2つの課題に対して,提案手法の有効性と一般化性を検証する。 RVQの深さを拡大するにつれて、我々の生成モデルは、同様の大きさのベースラインモデルと比較して、より優れた生成忠実度またはより高速なサンプリング速度を示す。
論文参考訳（メタデータ） (2024-12-13T15:31:17Z)
Continuous Speculative Decoding for Autoregressive Image Generation [33.05392461723613]
連続評価された自己回帰(AR)画像生成モデルは、離散的傾向よりも顕著な優位性を示している。投機的復号化は大規模言語モデル(LLM)の加速に有効であることが証明されたこの研究は離散トークンから連続空間への投機的復号アルゴリズムを一般化する。
論文参考訳（メタデータ） (2024-11-18T09:19:15Z)
SuffixDecoding: Extreme Speculative Decoding for Emerging AI Applications [9.143856130336783]
投機的復号化は、大規模言語モデル(LLM)推論の遅延を低減するために広く採用されている。エージェントフレームワークは、同様のサブタスクを実行するマルチエージェントパイプラインや、アウトプットを反復的に拡張するセルフリファインメントループなど、反復的な推論要求を送信します。本稿では,効率的な接尾辞木を用いて長いトークン列をキャッシュする新しい手法であるemphSuffixDecodingを紹介する。
論文参考訳（メタデータ） (2024-11-07T18:49:33Z)
Beyond Autoregression: Fast LLMs via Self-Distillation Through Time [1.5858234832499587]
拡散言語モデルは、テキスト品質とLAMBADA自然言語理解ベンチマークでARモデルのパフォーマンスを上回りながら、少なくとも32個のトークンを同時に生成することができる。キャッシュなしでも、私たちのモデルはキャッシュなしでも、KVキャッシュを使用するARモデルよりも最大8倍高速でトークンを生成することができます。
論文参考訳（メタデータ） (2024-10-28T13:56:30Z)
Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-24T14:52:38Z)
AMUSD: Asynchronous Multi-Device Speculative Decoding for LLM Acceleration [0.3626013617212667]
本稿では,AMUSD (Asynchronous Multi-device Speculative Decoding) を導入し,ドラフトを分離し,フェーズを検証することによって生成を高速化するシステムを提案する。 AMUSDは、1つのモデル(ドラフトまたは検証)のみが一度にトークン生成を行う従来の投機復号法とは異なり、どちらのモデルも別々のデバイス上で独立して予測を行うことができる。我々は、複数のデータセットに対するアプローチを評価し、AMUSDが投機的復号化よりも平均29%改善し、従来の自己回帰復号化よりも1.96$times$スピードアップを達成したことを示す。
論文参考訳（メタデータ） (2024-10-22T19:15:35Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文参考訳（メタデータ） (2024-10-02T16:05:27Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文参考訳（メタデータ） (2024-03-04T17:34:59Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
Iterative Token Evaluation and Refinement for Real-World Super-Resolution [77.74289677520508]
実世界の画像超解像(RWSR)は、低品質(LQ)画像が複雑で未同定の劣化を起こすため、長年にわたる問題である。本稿では,RWSRのための反復的トークン評価・リファインメントフレームワークを提案する。 ITERはGAN(Generative Adversarial Networks)よりも訓練が容易であり,連続拡散モデルよりも効率的であることを示す。
論文参考訳（メタデータ） (2023-12-09T17:07:32Z)
Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文参考訳（メタデータ） (2023-04-22T15:32:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。