Fugu-MT 論文翻訳(概要): LANTERN++: Enhanced Relaxed Speculative Decoding with Static Tree Drafting for Visual Auto-regressive Models

論文の概要: LANTERN++: Enhanced Relaxed Speculative Decoding with Static Tree Drafting for Visual Auto-regressive Models

arxiv url: http://arxiv.org/abs/2502.06352v1
Date: Mon, 10 Feb 2025 11:05:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:51.090217
Title: LANTERN++: Enhanced Relaxed Speculative Decoding with Static Tree Drafting for Visual Auto-regressive Models
Title（参考訳）: LANTERN++:ビジュアル自動回帰モデルのための静的ツリー描画による緩和された投機的デコーディング
Authors: Sihwan Park, Doohyuk Jang, Sungyub Kim, Souvik Kundu, Eunho Yang,
Abstract要約: LANTERN++は、静的ツリーのドラフトと緩和された受け入れ条件を統合する新しいフレームワークで、低信頼の予測とは独立してドラフトを選択できる。最先端のビジュアルARモデルの実験では、LANTERN++は推論を著しく加速し、標準的なARデコーディングよりも最大$mathbftimes 2.56$のスピードアップを実現している。
参考スコア（独自算出の注目度）: 31.1717739483817
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative decoding has been widely used to accelerate autoregressive (AR) text generation. However, its effectiveness in visual AR models remains limited due to token selection ambiguity, where multiple tokens receive similarly low probabilities, reducing acceptance rates. While dynamic tree drafting has been proposed to improve speculative decoding, we show that it fails to mitigate token selection ambiguity, resulting in shallow draft trees and suboptimal acceleration. To address this, we introduce LANTERN++, a novel framework that integrates static tree drafting with a relaxed acceptance condition, allowing drafts to be selected independently of low-confidence predictions. This enables deeper accepted sequences, improving decoding efficiency while preserving image quality. Extensive experiments on state-of-the-art visual AR models demonstrate that LANTERN++ significantly accelerates inference, achieving up to $\mathbf{\times 2.56}$ speedup over standard AR decoding while maintaining high image quality.
Abstract（参考訳）: 投機的復号化は自己回帰(AR)テキスト生成を加速するために広く用いられている。しかし、その視覚ARモデルにおける有効性は、トークン選択の曖昧さによって制限され、複数のトークンが同様に低い確率で受信率を低下させる。投機的デコードを改善するために動的ツリーの起草が提案されているが、トークン選択の曖昧さを軽減できず、浅い起草木と準最適加速度をもたらすことを示す。 LANTERN++は静的ツリーのドラフトを緩和された受け入れ条件と統合し、低信頼度予測とは独立してドラフトを選択できる新しいフレームワークである。これにより、より深い受理シーケンスが可能となり、画像品質を維持しながら復号効率が向上する。最先端のビジュアルARモデルに関する大規模な実験は、LANTERN++が推論を著しく加速し、高画質を維持しながら標準的なARデコーディングを最大$\mathbf{\times 2.56}$スピードアップすることを示した。

関連論文リスト

Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。 DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文参考訳（メタデータ） (2025-07-02T14:33:52Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [52.905060461479856]
GRIFFINはトークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだフレームワークである。 LLaMAシリーズとVicunaモデルを用いた実験では、GRIFFINは7%以上、スピードアップ率は8%以上である。
論文参考訳（メタデータ） (2025-02-16T07:06:00Z)
Parallelized Autoregressive Visual Generation [65.9579525736345]
本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
論文参考訳（メタデータ） (2024-12-19T17:59:54Z)
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。 FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文参考訳（メタデータ） (2024-12-17T08:02:08Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。 LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文参考訳（メタデータ） (2024-10-04T12:21:03Z)
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文参考訳（メタデータ） (2024-10-02T16:05:27Z)
NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。 NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文参考訳（メタデータ） (2024-07-16T04:52:39Z)
OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure [40.9990864658776]
投機的復号には、複数のトークンを1ステップで生成できるようにする"ドラフトと検証"機構が使用されている。既存の手法は主に固定されたドラフト構造を採用しており、異なる状況に適応できない。我々は適応的でスケーラブルなドラフトツリーを構築するアルゴリズムであるOPT-Treeを提案する。
論文参考訳（メタデータ） (2024-06-25T04:45:53Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。 GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文参考訳（メタデータ） (2024-02-03T08:44:11Z)
Fast and Robust Early-Exiting Framework for Autoregressive Language Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文参考訳（メタデータ） (2023-10-09T05:53:05Z)
Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。 SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文参考訳（メタデータ） (2022-03-30T17:27:09Z)
Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-11T15:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。