論文の概要: Fast Inference of Visual Autoregressive Model with Adjacency-Adaptive Dynamical Draft Trees
- arxiv url: http://arxiv.org/abs/2512.21857v1
- Date: Fri, 26 Dec 2025 04:45:49 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:04:27.044604
- Title: Fast Inference of Visual Autoregressive Model with Adjacency-Adaptive Dynamical Draft Trees
- Title(参考訳): 適応型動的ドラフトツリーを用いた視覚自己回帰モデルの高速推論
- Authors: Haodong Lei, Hongsong Wang, Xin Geng, Liang Wang, Pan Zhou,
- Abstract要約: 本稿では,隣接するトークン状態と先行受入率を活用することで,ドラフトツリーの深さと幅を調整できる適応型動的ドラフトツリーを提案する。
ADT-Treeは、それぞれ3.13xと3.05xのスピードアップを実現し、LANTERNのような緩やかなサンプリング手法とシームレスに統合する。
- 参考スコア(独自算出の注目度): 50.230925890958936
- License:
- Abstract: Autoregressive (AR) image models achieve diffusion-level quality but suffer from sequential inference, requiring approximately 2,000 steps for a 576x576 image. Speculative decoding with draft trees accelerates LLMs yet underperforms on visual AR models due to spatially varying token prediction difficulty. We identify a key obstacle in applying speculative decoding to visual AR models: inconsistent acceptance rates across draft trees due to varying prediction difficulties in different image regions. We propose Adjacency-Adaptive Dynamical Draft Trees (ADT-Tree), an adjacency-adaptive dynamic draft tree that dynamically adjusts draft tree depth and width by leveraging adjacent token states and prior acceptance rates. ADT-Tree initializes via horizontal adjacency, then refines depth/width via bisectional adaptation, yielding deeper trees in simple regions and wider trees in complex ones. The empirical evaluations on MS-COCO 2017 and PartiPrompts demonstrate that ADT-Tree achieves speedups of 3.13xand 3.05x, respectively. Moreover, it integrates seamlessly with relaxed sampling methods such as LANTERN, enabling further acceleration. Code is available at https://github.com/Haodong-Lei-Ray/ADT-Tree.
- Abstract(参考訳): 自己回帰(AR)画像モデルは拡散レベルの品質を達成するが、逐次推論に悩まされ、576x576画像に対して約2,000ステップを必要とする。
ドラフトツリーによる投機的復号化は、空間的に異なるトークン予測の難しさのため、視覚ARモデル上ではLLMを加速するが、性能は低下する。
視覚的ARモデルに投機的復号化を適用する際の重要な障害は、画像領域の異なる予測困難により、ドラフトツリー間の不整合受容率である。
本稿では,隣接するトークン状態と先行受入率を利用して,動的にドラフトツリーの深さと幅を調節する適応適応動的ドラフトツリーであるadjacency-Adaptive Dynamical Draft Trees (ADT-Tree)を提案する。
ADT-Treeは水平隣接により初期化され、二分割適応により深さ/幅を洗練し、単純な領域ではより深い木、複雑な領域ではより広い木を生み出す。
MS-COCO 2017 と PartiPrompts での実証的な評価は、ATT-Tree がそれぞれ 3.13x と 3.05x のスピードアップを達成したことを示している。
さらに、LANTERNのような緩やかなサンプリング手法とシームレスに統合し、さらなる加速を可能にする。
コードはhttps://github.com/Haodong-Lei-Ray/ADT-Treeで公開されている。
関連論文リスト
- Efficient Autoregressive Shape Generation via Octree-Based Adaptive Tokenization [68.07464514094299]
既存の方法では、すべての形状を固定サイズのトークンにエンコードし、3Dデータにまたがるスケールと複雑さの固有のバリエーションを無視している。
形状の複雑さに応じて潜在表現の次元を調節する新しいフレームワークであるOctoreeをベースとした適応トークン化を提案する。
当社の手法では,同等の視覚的品質を維持しながら,固定サイズの手法に比べてトークン数を50%削減する。
論文 参考訳(メタデータ) (2025-04-03T17:57:52Z) - LANTERN++: Enhancing Relaxed Speculative Decoding with Static Tree Drafting for Visual Auto-regressive Models [31.1717739483817]
LANTERN++は、静的ツリーのドラフトと、調整された緩和された受け入れ条件を統合するフレームワークである。
最先端のビジュアルARモデルの実験では、LANTERN++は推論を著しく加速し、標準的なARデコーディングよりも最大$mathbftimes 2.56$のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-02-10T11:05:18Z) - Autoregressive Generation of Static and Growing Trees [49.93294993975928]
本稿では,ツリー生成のためのトランスフォーマーアーキテクチャとトレーニング戦略を提案する。
アーキテクチャはデータを複数の解像度で処理し、1時間ガラスの形状を持ち、中間層は外側層よりも少ないトークンを処理する。
我々は,この手法を拡張して,イメージ・ツー・ツリーとポイント・クラウド・ツー・ツリー条件生成を行い,木の成長過程をシミュレートし,4D木を生成する。
論文 参考訳(メタデータ) (2025-02-07T08:51:14Z) - OPT-Tree: Speculative Decoding with Adaptive Draft Tree Structure [40.9990864658776]
投機的復号には、複数のトークンを1ステップで生成できるようにする"ドラフトと検証"機構が使用されている。
既存の手法は主に固定されたドラフト構造を採用しており、異なる状況に適応できない。
我々は適応的でスケーラブルなドラフトツリーを構築するアルゴリズムであるOPT-Treeを提案する。
論文 参考訳(メタデータ) (2024-06-25T04:45:53Z) - ViTree: Single-path Neural Tree for Step-wise Interpretable Fine-grained
Visual Categorization [56.37520969273242]
細かな視覚分類のための新しいアプローチであるViTreeを紹介する。
ツリーパスをトラバースすることで、ViTreeは変換処理された機能からパッチを効果的に選択し、情報のあるローカルリージョンをハイライトする。
このパッチとパスの選択性は、ViTreeのモデルの解釈可能性を高め、モデルの内部動作に関するより良い洞察を可能にする。
論文 参考訳(メタデータ) (2024-01-30T14:32:25Z) - Social Interpretable Tree for Pedestrian Trajectory Prediction [75.81745697967608]
本稿では,このマルチモーダル予測課題に対処するため,SIT(Social Interpretable Tree)と呼ばれる木に基づく手法を提案する。
木の根から葉までの経路は、個々の将来の軌跡を表す。
ETH-UCYとStanford Droneのデータセットによる実験結果からは,手作り木にもかかわらず,我々の手法が最先端の手法の性能に適合または超えることを示した。
論文 参考訳(メタデータ) (2022-05-26T12:18:44Z) - Growing Deep Forests Efficiently with Soft Routing and Learned
Connectivity [79.83903179393164]
この論文は、いくつかの重要な側面で深い森林のアイデアをさらに拡張します。
我々は、ノードがハードバイナリ決定ではなく、確率的ルーティング決定、すなわちソフトルーティングを行う確率的ツリーを採用する。
MNISTデータセットの実験は、私たちの力のある深部森林が[1]、[3]よりも優れたまたは匹敵するパフォーマンスを達成できることを示しています。
論文 参考訳(メタデータ) (2020-12-29T18:05:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。