論文の概要: BiGain: Unified Token Compression for Joint Generation and Classification
- arxiv url: http://arxiv.org/abs/2603.12240v1
- Date: Thu, 12 Mar 2026 17:55:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.278075
- Title: BiGain: Unified Token Compression for Joint Generation and Classification
- Title(参考訳): BiGain: 共同生成と分類のための統一トークン圧縮
- Authors: Jiacheng Liu, Shengkun Tang, Jiacheng Cui, Dongkuan Xu, Zhiqiang Shen,
- Abstract要約: BiGainは、高速拡散モデルにおける分類を改善しながら、生成品質を保ちながら、トレーニング不要でプラグアンドプレイのフレームワークである。
我々の重要な洞察は周波数分離であり、これは大域的な意味論から細部を解き、生成的忠実さと識別的有用性の両方を尊重する圧縮を可能にする。
本分析は,拡散モデルにおけるトークン圧縮のための信頼性の高い設計規則として,高頻度の細部と低周波数のセマンティクスを保存したスペクトル保持が重要であることを示す。
- 参考スコア(独自算出の注目度): 47.040577759493004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acceleration methods for diffusion models (e.g., token merging or downsampling) typically optimize synthesis quality under reduced compute, yet often ignore discriminative capacity. We revisit token compression with a joint objective and present BiGain, a training-free, plug-and-play framework that preserves generation quality while improving classification in accelerated diffusion models. Our key insight is frequency separation: mapping feature-space signals into a frequency-aware representation disentangles fine detail from global semantics, enabling compression that respects both generative fidelity and discriminative utility. BiGain reflects this principle with two frequency-aware operators: (1) Laplacian-gated token merging, which encourages merges among spectrally smooth tokens while discouraging merges of high-contrast tokens, thereby retaining edges and textures; and (2) Interpolate-Extrapolate KV Downsampling, which downsamples keys/values via a controllable interextrapolation between nearest and average pooling while keeping queries intact, thereby conserving attention precision. Across DiT- and U-Net-based backbones and ImageNet-1K, ImageNet-100, Oxford-IIIT Pets, and COCO-2017, our operators consistently improve the speed-accuracy trade-off for diffusion-based classification, while maintaining or enhancing generation quality under comparable acceleration. For instance, on ImageNet-1K, with 70% token merging on Stable Diffusion 2.0, BiGain increases classification accuracy by 7.15% while improving FID by 0.34 (1.85%). Our analyses indicate that balanced spectral retention, preserving high-frequency detail and low/mid-frequency semantics, is a reliable design rule for token compression in diffusion models. To our knowledge, BiGain is the first framework to jointly study and advance both generation and classification under accelerated diffusion, supporting lower-cost deployment.
- Abstract(参考訳): 拡散モデル(例えばトークンマージやダウンサンプリング)の加速法は、通常、少ない計算の下で合成品質を最適化するが、しばしば識別能力は無視する。
我々は,共同目的によるトークン圧縮を再考し,加速拡散モデルの分類を改善しつつ,生成品質を保ったトレーニングフリーのプラグアンドプレイフレームワークであるBiGainを提示する。
特徴空間信号を周波数認識表現にマッピングすることで、グローバルセマンティクスから細かな詳細を分離し、生成的忠実性と識別的有用性の両方を尊重する圧縮を可能にする。
BiGainは、(1)高コントラストトークンのマージを抑えつつ、スペクトル的に滑らかなトークン間のマージを促進するラプラシアンゲートトークンマージ、(2)クエリをそのまま保ちながら、最も近いプールと平均プール間の制御可能なインタートラポーレーションを介してキー/値をダウンサンプリングするインターポーレート・エクストラポーレートKVダウンサンプリングの2つの原理を反映している。
DiTとU-Netベースのバックボーン、ImageNet-1K、ImageNet-100、Oxford-IIIT Pets、COCO-2017の他、当社のオペレーターは、同等の加速の下で生成品質を維持し、かつ、拡散ベースの分類における速度精度のトレードオフを一貫して改善しています。
例えばImageNet-1Kでは、70%のトークンがStable Diffusion 2.0にマージされ、BiGainは分類精度を7.15%向上し、FIDは0.34(1.85%)向上した。
本分析は,拡散モデルにおけるトークン圧縮のための信頼性の高い設計規則として,高頻度の細部と低周波数のセマンティクスを保存したスペクトル保持が重要であることを示す。
我々の知る限り、BiGainは、加速拡散下で世代と分類の両方を共同で研究し、発展させ、低コストな展開をサポートする最初のフレームワークです。
関連論文リスト
- Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity [54.95089105944234]
視覚言語モデル(VLM)は、過剰な視覚トークンの生成によって引き起こされる計算の非効率性に直面する。
2段階パイプラインを特徴とする訓練不要なSynergistic Importance-DiversityアプローチPruneSIDを提案する。
LLaVA-NeXTでは11.1%のトークン保持率で96.3%の精度、極端な圧縮速度(5.6%)で92.8%の精度を実現した。
論文 参考訳(メタデータ) (2026-03-10T10:31:58Z) - Making Training-Free Diffusion Segmentors Scale with the Generative Power [118.72472901404814]
一連の研究は、事前学習された拡散モデルを、それ以上の訓練をせずに意味的セグメンテーションに適応することに焦点を当てている。
本稿では,自動アグリゲーションと画素単位の再スケーリングという2つの手法を提案する。
論文 参考訳(メタデータ) (2026-03-06T11:35:37Z) - Towards Efficient Low-rate Image Compression with Frequency-aware Diffusion Prior Refinement [12.819185499129388]
我々はtextbfConsistency Prior textbfRefinement (DiffCR) を用いた Accelerate textbfDiffusion-based Image Compression を提案する。
DiffCRは、効率的かつ高忠実な画像再構成のための新しい圧縮フレームワークである。
論文 参考訳(メタデータ) (2026-01-15T13:25:25Z) - Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。
既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。
教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文 参考訳(メタデータ) (2025-05-19T03:45:16Z) - CoMatch: Dynamic Covisibility-Aware Transformer for Bilateral Subpixel-Level Semi-Dense Image Matching [31.42896369011162]
CoMatchは、ダイナミックな可視性認識と両側のサブピクセル精度を備えた、新しい半密度画像マッチングである。
可視性誘導トークン凝縮器を導入し、可視性スコアに照らして適応的にトークンを集約する。
ソースビューとターゲットビューの両方において、マッチング候補をサブピクセルレベルに洗練するために、微妙な相関モジュールが開発された。
論文 参考訳(メタデータ) (2025-03-31T10:17:01Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Compressing gradients by exploiting temporal correlation in momentum-SGD [17.995905582226463]
エラーフィードバックのないシステムにおける時間相関を利用した圧縮手法を解析する。
ImageNetデータセットを用いた実験により,提案手法は通信速度を著しく低減することを示した。
我々は、最小勾配ノルムの有界性を確立することにより、予測誤差仮定の下でSGDの収束を証明した。
論文 参考訳(メタデータ) (2021-08-17T18:04:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。