Fugu-MT 論文翻訳(概要): Importance-based Token Merging for Diffusion Models

論文の概要: Importance-based Token Merging for Diffusion Models

arxiv url: http://arxiv.org/abs/2411.16720v1
Date: Sat, 23 Nov 2024 02:01:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.930261
Title: Importance-based Token Merging for Diffusion Models
Title（参考訳）: 拡散モデルにおける重要度に基づくトケマージ
Authors: Haoyu Wu, Jingyi Xu, Hieu Le, Dimitris Samaras,
Abstract要約: 拡散モデルは高品質の画像とビデオ生成において優れている。それらを高速化する強力な方法は、より高速な計算のために類似のトークンをマージすることだ。マージ時に重要なトークンを保存することは,サンプルの品質を著しく向上させることを示す。
参考スコア（独自算出の注目度）: 41.94334394794811
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models excel at high-quality image and video generation. However, a major drawback is their high latency. A simple yet powerful way to speed them up is by merging similar tokens for faster computation, though this can result in some quality loss. In this paper, we demonstrate that preserving important tokens during merging significantly improves sample quality. Notably, the importance of each token can be reliably determined using the classifier-free guidance magnitude, as this measure is strongly correlated with the conditioning input and corresponds to output fidelity. Since classifier-free guidance incurs no additional computational cost or requires extra modules, our method can be easily integrated into most diffusion-based frameworks. Experiments show that our approach significantly outperforms the baseline across various applications, including text-to-image synthesis, multi-view image generation, and video generation.
Abstract（参考訳）: 拡散モデルは高品質の画像とビデオ生成において優れている。しかし、大きな欠点は、その高いレイテンシである。それらをスピードアップする単純だが強力な方法は、類似のトークンをマージして高速な計算を行うことだ。本稿では, マージ時に重要なトークンを保存することで, 試料の品質が著しく向上することが実証された。特に、この尺度は条件入力と強く相関し、出力忠実度に対応するため、分類器フリー誘導等級を用いて各トークンの重要性を確実に判定することができる。分類器フリーガイダンスは計算コストの増大や余分なモジュールを必要としないため,ほとんどの拡散型フレームワークに容易に組み込むことができる。実験により,本手法は,テキスト・ツー・イメージ合成,マルチビュー画像生成,ビデオ生成など,様々なアプリケーションにおいて,ベースラインを著しく上回ることがわかった。

関連論文リスト

UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文参考訳（メタデータ） (2025-04-06T09:20:49Z)
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文参考訳（メタデータ） (2025-03-20T17:59:59Z)
"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
Video Token Merging for Long-form Video Understanding [17.59960070514554]
学習可能なビデオトークンのマージアルゴリズムを提案し,その正当性に基づいて動的にトークンをマージする。提案手法は,メモリコストを84%削減し,スループットをベースラインアルゴリズムに比べて約6.89倍向上させる。
論文参考訳（メタデータ） (2024-10-31T09:55:32Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文参考訳（メタデータ） (2024-07-19T16:11:15Z)
Enhancing Semantic Fidelity in Text-to-Image Synthesis: Attention Regulation in Diffusion Models [23.786473791344395]
拡散モデルにおけるクロスアテンション層は、生成プロセス中に特定のトークンに不均等に集中する傾向がある。本研究では,アテンションマップと入力テキストプロンプトを一致させるために,アテンション・レギュレーション(アテンション・レギュレーション)という,オン・ザ・フライの最適化手法を導入する。実験結果から,本手法が他のベースラインより一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-03-11T02:18:27Z)
Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文参考訳（メタデータ） (2024-02-22T06:47:44Z)
Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文参考訳（メタデータ） (2023-12-15T08:46:43Z)
Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文参考訳（メタデータ） (2023-12-02T04:29:19Z)
Closed-Loop Transcription via Convolutional Sparse Coding [29.75613581643052]
オートエンコーダはしばしばエンコーダやデコーダとして汎用的なディープネットワークを使用するが、解釈が難しい。本研究では,多段畳み込みスパース符号化(CSC)から画像分布が生成されることを明示的に仮定する。提案手法は, より構造化され, 解釈可能な表現, より安定した収束, 大規模データセットのスケーラビリティなど, 様々なメリットを享受する。
論文参考訳（メタデータ） (2023-02-18T14:40:07Z)
TokenMixup: Efficient Attention-guided Token-level Data Augmentation for Transformers [8.099977107670917]
TokenMixupは効果的な注意誘導型トークンレベルのデータ拡張手法である。 TokenMixupの亜種はトークンをひとつのインスタンスに混ぜて、マルチスケールの機能拡張を可能にする。実験の結果,CIFARおよびImageNet-1Kにおけるベースラインモデルの性能は有意に向上した。
論文参考訳（メタデータ） (2022-10-14T06:36:31Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
Generating Annotated High-Fidelity Images Containing Multiple Coherent Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文参考訳（メタデータ） (2020-06-22T11:33:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。