Fugu-MT 論文翻訳(概要): LANTERN++: Enhancing Relaxed Speculative Decoding with Static Tree Drafting for Visual Auto-regressive Models

論文の概要: LANTERN++: Enhancing Relaxed Speculative Decoding with Static Tree Drafting for Visual Auto-regressive Models

arxiv url: http://arxiv.org/abs/2502.06352v2
Date: Thu, 27 Mar 2025 11:53:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-28 14:27:26.368208
Title: LANTERN++: Enhancing Relaxed Speculative Decoding with Static Tree Drafting for Visual Auto-regressive Models
Title（参考訳）: LANTERN++: 視覚的自己回帰モデルのための静的ツリー描画による緩和された投機的デコーディング
Authors: Sihwan Park, Doohyuk Jang, Sungyub Kim, Souvik Kundu, Eunho Yang,
Abstract要約: LANTERN++は、静的ツリーのドラフトと、調整された緩和された受け入れ条件を統合するフレームワークである。最先端のビジュアルARモデルの実験では、LANTERN++は推論を著しく加速し、標準的なARデコーディングよりも最大$mathbftimes 2.56$のスピードアップを実現している。
参考スコア（独自算出の注目度）: 31.1717739483817
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speculative decoding has been widely used to accelerate auto-regressive (AR) text generation. However, its effectiveness for visual AR models remains limited due to token selection ambiguity, where multiple tokens share similarly low probabilities and thus reduce acceptance rates. Recently, relaxed speculative decoding with dynamic tree drafting was proposed to mitigate this ambiguity, demonstrating promising results in accelerating visual AR models. However, we observe that token selection ambiguity still negatively affects dynamic tree drafting, resulting in shallow draft trees and limited acceleration. To overcome this issue, we introduce LANTERN++, a refined framework that integrates static tree drafting with a tailored relaxed acceptance condition, allowing drafts to be selected independently of low-confidence predictions. This enables the acceptance of deeper sequences, improving decoding efficiency while preserving image quality. Extensive experiments on state-of-the-art visual AR models demonstrate that LANTERN++ significantly accelerates inference, achieving up to $\mathbf{\times 2.56}$ speedup over standard AR decoding while maintaining high image quality. The code is publicly available at https://github.com/jadohu/LANTERN.
Abstract（参考訳）: 投機的復号化は自動回帰(AR)テキスト生成の高速化に広く用いられている。しかし、トークン選択の不明瞭さのため、視覚的ARモデルの有効性は限定的であり、複数のトークンが同様に低い確率を共有し、受容率を低下させる。近年、この曖昧さを軽減するため、動的ツリー起草による投機的復号化が提案され、視覚ARモデルの高速化に有望な結果が示された。しかし,トークン選択の曖昧さが動的ツリーの起草に依然として悪影響を及ぼし,結果として浅い起草木と限られた加速が生じる。この問題を解決するためにLANTERN++を導入する。これは静的ツリーのドラフトと調整された緩和された受け入れ条件を統合し、低信頼の予測とは独立してドラフトを選択できるフレームワークである。これにより、より深いシーケンスの受け入れが可能になり、画質を維持しながら復号効率を向上させることができる。最先端のビジュアルARモデルに関する大規模な実験は、LANTERN++が推論を著しく加速し、高画質を維持しながら標準的なARデコーディングを最大$\mathbf{\times 2.56}$スピードアップすることを示した。コードはhttps://github.com/jadohu/LANTERN.comで公開されている。

関連論文リスト

SAGE: Accelerating Vision-Language Models via Entropy-Guided Adaptive Speculative Decoding [15.734450444255787]
投機的復号化は、視覚言語モデルにおける推論を加速するための有望なアプローチとして現れている。既存のメソッドはデコードプロセスを通して固定されている静的ツリー構造に依存している。実時間予測の不確実性に基づいて投機木構造を動的に調整する新しいフレームワークであるSAGEを提案する。
論文参考訳（メタデータ） (2026-01-31T05:35:40Z)
Multi-Scale Local Speculative Decoding for Image Generation [10.239314110594249]
マルチスケールローカル投機復号(MuLo-SD)を導入する。 MuLo-SDは、多重解像度のドラフトと空間情報による検証を組み合わせることで、AR画像生成を高速化する。我々は MuLo-SD が $mathbf1.7times$ までの大幅な高速化を実現することを示した。
論文参考訳（メタデータ） (2026-01-08T17:39:35Z)
Fast Inference of Visual Autoregressive Model with Adjacency-Adaptive Dynamical Draft Trees [50.230925890958936]
本稿では,隣接するトークン状態と先行受入率を活用することで,ドラフトツリーの深さと幅を調整できる適応型動的ドラフトツリーを提案する。 ADT-Treeは、それぞれ3.13xと3.05xのスピードアップを実現し、LANTERNのような緩やかなサンプリング手法とシームレスに統合する。
論文参考訳（メタデータ） (2025-12-26T04:45:49Z)
Hawk: Leveraging Spatial Context for Faster Autoregressive Text-to-Image Generation [87.00172597953228]
投機的復号化は、品質を損なうことなくテキスト生成を加速させる可能性を示している。我々は、画像の空間構造を利用して投機モデルをより正確で効率的な予測へと導く新しいアプローチであるHawkを紹介する。複数のテキストと画像のベンチマークの実験結果は、標準的なARモデルよりも1.71倍のスピードアップを示している。
論文参考訳（メタデータ） (2025-10-29T17:43:31Z)
Fast Inference via Hierarchical Speculative Decoding [65.40448210801763]
階層的投機的復号法(HSD)は,各モデルがトークンを提案し,次に大きなモデルが1つのフォワードパスで検証する階層構造に,ドラフトモデルを積み重ねるアルゴリズムである。 HSDは最高の単軸ベースラインよりも1.2倍のスピードアップを達成している。
論文参考訳（メタデータ） (2025-10-22T15:56:19Z)
Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。 DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文参考訳（メタデータ） (2025-07-02T14:33:52Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
GRIFFIN: Effective Token Alignment for Faster Speculative Decoding [52.905060461479856]
GRIFFINはトークン指向のトレーニング戦略とトークン指向のドラフトモデルを組み込んだフレームワークである。 LLaMAシリーズとVicunaモデルを用いた実験では、GRIFFINは7%以上、スピードアップ率は8%以上である。
論文参考訳（メタデータ） (2025-02-16T07:06:00Z)
Parallelized Autoregressive Visual Generation [65.9579525736345]
本稿では,並列化された自己回帰視覚生成のための簡易かつ効果的な手法を提案する。本手法は,画像生成タスクと映像生成タスクの両方において,最大9.5倍の高速化を実現し,品質劣化を最小限に抑えた3.6倍の高速化を実現する。
論文参考訳（メタデータ） (2024-12-19T17:59:54Z)
Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree [7.438117410146904]
Falconは、ドラフト作成者の並列性と出力品質の両方を増強するために設計された革新的な投機的復号化フレームワークである。 FalconにはCoupled Sequential Glancing Distillation(英語版)技術が組み込まれている。
論文参考訳（メタデータ） (2024-12-17T08:02:08Z)
COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文参考訳（メタデータ） (2024-10-12T23:56:19Z)
LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding [30.630803933771865]
実験により,提案手法が投機的復号化よりも大幅に高速化されたことを示す。 LANTERNは、greedyデコーディングやランダムサンプリングと比較して、$mathbf1.75times$と$mathbf1.82times$のスピードアップを増大させる。
論文参考訳（メタデータ） (2024-10-04T12:21:03Z)
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文参考訳（メタデータ） (2024-10-02T16:05:27Z)
NAMER: Non-Autoregressive Modeling for Handwritten Mathematical Expression Recognition [80.22784377150465]
手書き数学的表現認識(HMER)は、文書理解における多種多様な応用のために、パターン認識において大きな注目を集めている。本稿では,HMERのためのボトムアップ非自己回帰モデリング手法であるNAMERを初めて構築する。 NAMERは、VAT(Visual Aware Tokenizer)とPGD(Parallel Graph)を備える。
論文参考訳（メタデータ） (2024-07-16T04:52:39Z)
OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure [40.9990864658776]
投機的復号には、複数のトークンを1ステップで生成できるようにする"ドラフトと検証"機構が使用されている。既存の手法は主に固定されたドラフト構造を採用しており、異なる状況に適応できない。我々は適応的でスケーラブルなドラフトツリーを構築するアルゴリズムであるOPT-Treeを提案する。
論文参考訳（メタデータ） (2024-06-25T04:45:53Z)
Chimera: A Lossless Decoding Method for Accelerating Large Language Models Inference by Fusing all Tokens [15.566726645722657]
投機的サンプリングに特化して設計された新しいフレームワークを提案する。このフレームワーク内では、以前に生成されたトークンを効果的に活用し、後続の単語を予測する軽量なドラフトモデルを導入する。我々は、バニラ自動回帰復号方式と比較して平均遅延速度比が2.7倍になるという印象的な結果を示した。
論文参考訳（メタデータ） (2024-02-24T08:10:39Z)
GliDe with a CaPE: A Low-Hassle Method to Accelerate Speculative Decoding [81.01996600734616]
GliDe と CaPE を導入し,バニラ投機復号への2つの低ハードル修正を行った。 GliDeは、ターゲットのLLMからキャッシュされたキーと値を再利用する、修正されたドラフトモデルアーキテクチャである。コード、データ、トレーニング済みのドラフトモデルをリリースします。
論文参考訳（メタデータ） (2024-02-03T08:44:11Z)
Fast and Robust Early-Exiting Framework for Autoregressive Language Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文参考訳（メタデータ） (2023-10-09T05:53:05Z)
Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。 SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文参考訳（メタデータ） (2022-03-30T17:27:09Z)
Semi-Autoregressive Image Captioning [153.9658053662605]
画像キャプションに対する現在の最先端のアプローチは、通常自己回帰的手法を採用する。連続的反復改善による非自己回帰画像キャプションは、かなりの加速を伴う自己回帰画像キャプションに匹敵する性能が得られる。本稿では,性能と速度のトレードオフを改善するために,SAIC(Semi-Autoregressive Image Captioning)と呼ばれる新しい2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2021-10-11T15:11:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。