論文の概要: CIAR: Interval-based Collaborative Decoding for Image Generation Acceleration
- arxiv url: http://arxiv.org/abs/2603.25463v1
- Date: Thu, 26 Mar 2026 14:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.321104
- Title: CIAR: Interval-based Collaborative Decoding for Image Generation Acceleration
- Title(参考訳): CIAR: 画像生成高速化のためのインターバルベース協調デコーディング
- Authors: Keming Ye, Zhou Zhao, Fan Wu, Shengyu Zhang,
- Abstract要約: 自動回帰(AR)モデルは最近画像生成において顕著な進歩を遂げ、拡散ベースのアプローチに匹敵するパフォーマンスを実現している。
我々は、デバイス上での自己検証を利用して視覚合成の2つの重要な特性を扱うクラウド・デバイス・コラボレーション・フレームワークである textbfCIAR を通じてこの問題に対処する。
提案手法は, 連続確率間隔を用いて処理を高速化し, 大規模視覚語彙で実現可能なオンデバイストークン不確実性定量化器に重点を置いている。
- 参考スコア(独自算出の注目度): 47.52310736101766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Auto-regressive (AR) models have recently made notable progress in image generation, achieving performance comparable to diffusion-based approaches. However, their computational intensity and sequential nature impede on-device deployment, causing disruptive latency. We address this via a cloud-device collaboration framework \textbf{CIAR}, which utilizes on-device self-verification to handle two key properties of visual synthesis: \textit{the vast token vocabulary} required for high-fidelity images and \textit{inherent spatial redundancy} which leads to extreme predictability in homogeneous regions, while object boundaries exhibit high uncertainty. Uniform verification wastes resources on such redundant tokens. Our solution centers on an on-device token uncertainty quantifier, which adopts continuous probability intervals to accelerate processing and make it feasible for large visual vocabularies instead of conventional discrete solution sets. Additionally, we incorporate a Interval-enhanced decoding module to further speed up decoding while maintaining visual fidelity and semantic consistency via a distribution alignment training strategy. Extensive experiments demonstrate that CIAR achieves a 2.18x speed-up and reduces cloud requests by 70\%, while preserving image quality compared to existing methods.
- Abstract(参考訳): 自動回帰(AR)モデルは最近画像生成において顕著な進歩を遂げ、拡散ベースのアプローチに匹敵するパフォーマンスを実現している。
しかし、その計算強度とシーケンシャルな性質はデバイス上のデプロイメントを阻害し、破壊的な遅延を引き起こした。
クラウドデバイスコラボレーションフレームワーク \textbf{CIAR} は、デバイス上での自己検証を利用して視覚合成の2つの重要な特性を処理します。
均一な検証は、そのような冗長なトークンにリソースを浪費する。
提案手法は, 連続確率間隔を用いて処理を高速化し, 従来の離散解集合ではなく, 大規模視覚語彙で実現可能なオンデバイストークン不確実性定量化器に重点を置いている。
さらに,視覚的忠実度とセマンティック一貫性を分散アライメントトレーニング戦略を通じて維持しながら,デコーディングをさらに高速化するために,インターバル強化デコーディングモジュールを組み込んだ。
大規模な実験では、CIARは2.18倍のスピードアップを実現し、クラウド要求を70%削減し、既存の方法と比べて画質を保っている。
関連論文リスト
- LADR: Locality-Aware Dynamic Rescue for Efficient Text-to-Image Generation with Diffusion Large Language Models [10.535207607235046]
Locality-Aware Dynamic Rescue (LADR) は画像の空間マルコフ特性を利用して推論を高速化する訓練不要の手法である。
LADRは、観測されたピクセルに空間的に隣接した領域である'世代フロンティア'でのトークンの回収を優先する。
4つのテキスト・画像生成ベンチマークの実験により、LADRは標準ベースラインよりも約4倍のスピードアップを達成することが示された。
論文 参考訳(メタデータ) (2026-03-13T15:12:41Z) - Multi-Scale Local Speculative Decoding for Image Generation [10.239314110594249]
マルチスケールローカル投機復号(MuLo-SD)を導入する。
MuLo-SDは、多重解像度のドラフトと空間情報による検証を組み合わせることで、AR画像生成を高速化する。
我々は MuLo-SD が $mathbf1.7times$ までの大幅な高速化を実現することを示した。
論文 参考訳(メタデータ) (2026-01-08T17:39:35Z) - SFTok: Bridging the Performance Gap in Discrete Tokenizers [72.9996757048065]
複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。
画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
論文 参考訳(メタデータ) (2025-12-18T18:59:04Z) - Frequency-Aware Autoregressive Modeling for Efficient High-Resolution Image Synthesis [40.93077975823353]
視覚的自己回帰モデリングは、次のスケールの予測パラダイムに基づいており、画像の品質とモデルのスケーラビリティにおいて顕著な優位性を示している。
しかし、高解像度の段階での計算オーバーヘッドは、相当数のトークンが関与しているため、依然として重要な課題である。
Sparsevarは、次世代の予測のためのプラグイン・アンド・プレイ・アクセラレーション・フレームワークで、追加のトレーニングを必要とせず、推論中に低周波トークンを動的に排除する。
論文 参考訳(メタデータ) (2025-07-28T01:13:24Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Improving Consistency in Diffusion Models for Image Super-Resolution [28.945663118445037]
拡散法における2種類の矛盾を観測する。
セマンティックとトレーニング-推論の組み合わせを扱うために、ConsisSRを導入します。
本手法は,既存拡散モデルにおける最先端性能を示す。
論文 参考訳(メタデータ) (2024-10-17T17:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。