論文の概要: Local Representative Token Guided Merging for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2507.12771v1
- Date: Thu, 17 Jul 2025 04:16:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.337851
- Title: Local Representative Token Guided Merging for Text-to-Image Generation
- Title(参考訳): テキスト・ツー・イメージ生成のための地域代表型Token Guided Merging
- Authors: Min-Jeong Lee, Hee-Dong Kim, Seong-Whan Lee,
- Abstract要約: ReToM(Local representative token guided merging)は、画像生成における任意の注意機構に適用可能な新しいトークンマージ戦略である。
実験の結果, ReToMはFIDとCLIPのスコアがベースラインに比べて6.2%向上していることがわかった。
- 参考スコア(独自算出の注目度): 26.585985828583304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stable diffusion is an outstanding image generation model for text-to-image, but its time-consuming generation process remains a challenge due to the quadratic complexity of attention operations. Recent token merging methods improve efficiency by reducing the number of tokens during attention operations, but often overlook the characteristics of attention-based image generation models, limiting their effectiveness. In this paper, we propose local representative token guided merging (ReToM), a novel token merging strategy applicable to any attention mechanism in image generation. To merge tokens based on various contextual information, ReToM defines local boundaries as windows within attention inputs and adjusts window sizes. Furthermore, we introduce a representative token, which represents the most representative token per window by computing similarity at a specific timestep and selecting the token with the highest average similarity. This approach preserves the most salient local features while minimizing computational overhead. Experimental results show that ReToM achieves a 6.2% improvement in FID and higher CLIP scores compared to the baseline, while maintaining comparable inference time. We empirically demonstrate that ReToM is effective in balancing visual quality and computational efficiency.
- Abstract(参考訳): 安定拡散はテキスト・ツー・イメージのための優れた画像生成モデルであるが、注意操作の二次的複雑さのため、その時間を要する生成プロセスは依然として課題である。
近年のトークンマージ手法は,注目操作時のトークン数を削減することで効率を向上するが,注意に基づく画像生成モデルの特徴を見落とさず,有効性を制限していることが多い。
本稿では,画像生成における任意の注意機構に適用可能な新しいトークンマージ戦略であるReToMを提案する。
さまざまなコンテキスト情報に基づいてトークンをマージするために、ReToMはローカル境界をアテンション入力内のウィンドウとして定義し、ウィンドウサイズを調整する。
さらに、特定のタイミングで類似性を計算し、最も平均的類似度の高いトークンを選択することで、ウィンドウごとの最も代表的なトークンを表す代表トークンを導入する。
このアプローチは、計算オーバーヘッドを最小限に抑えながら、最も健全な局所的特徴を保存する。
実験結果から、ReToMはFIDが6.2%向上し、CLIPスコアがベースラインよりも高かった。
ReToMは視覚的品質と計算効率のバランスをとるのに有効であることを示す。
関連論文リスト
- MARché: Fast Masked Autoregressive Image Generation with Cache-Aware Attention [10.077033449956806]
Masked Autoregressive (MAR) モデルは、画像生成のために双方向の注意を用いてトークンを一定の順序で予測することで、マスク付きおよび自己回帰生成の強度を統一する。
有効ではあるが、MARモデルは、すべての復号ステップにおいて、すべてのトークンに対する注意とフィードフォワード表現を再計算するので、計算上のオーバーヘッドに悩まされる。
本稿では、キャッシュ認識と選択KVリフレッシュという2つの重要なコンポーネントを通じて、この非効率に対処するためのトレーニング不要な生成フレームワーク MARch'e を提案する。
論文 参考訳(メタデータ) (2025-05-22T23:26:56Z) - CoMatch: Dynamic Covisibility-Aware Transformer for Bilateral Subpixel-Level Semi-Dense Image Matching [31.42896369011162]
CoMatchは、ダイナミックな可視性認識と両側のサブピクセル精度を備えた、新しい半密度画像マッチングである。
可視性誘導トークン凝縮器を導入し、可視性スコアに照らして適応的にトークンを集約する。
ソースビューとターゲットビューの両方において、マッチング候補をサブピクセルレベルに洗練するために、微妙な相関モジュールが開発された。
論文 参考訳(メタデータ) (2025-03-31T10:17:01Z) - Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文 参考訳(メタデータ) (2025-03-21T12:10:38Z) - CATANet: Efficient Content-Aware Token Aggregation for Lightweight Image Super-Resolution [42.76046559103463]
Image Super-Resolution (SR)のような低レベル視覚タスクにおいて、トランスフォーマーベースの手法は印象的な性能を示した。
これらの手法は、コンテンツに依存しない局所領域への注意を制限し、長距離依存性をキャプチャする注意力を直接制限する。
本稿では,これらの問題に対処する軽量なコンテンツ対応トークン集約ネットワーク(CATANet)を提案する。
提案手法はPSNRを最大0.33dB、推論速度をほぼ2倍に向上させる。
論文 参考訳(メタデータ) (2025-03-10T04:00:27Z) - Importance-Based Token Merging for Efficient Image and Video Generation [41.94334394794811]
マージ時の高情報トークンの保存は,サンプルの品質を著しく向上させることを示す。
本稿では,計算資源割り当てにおいて最も重要なトークンを優先する重要度に基づくトークンマージ手法を提案する。
論文 参考訳(メタデータ) (2024-11-23T02:01:49Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation [8.46894039954642]
対話型セグメンテーションのための新しいマルチスケールトークン適応アルゴリズムを提案する。
マルチスケールトークンでトップk演算を行うことで、計算の複雑さが大幅に単純化される。
また,コントラスト損失に基づくトークン学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-09T07:59:42Z) - Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。
計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。
トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文 参考訳(メタデータ) (2023-12-02T04:29:19Z) - Text-Conditioned Sampling Framework for Text-to-Image Generation with
Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。
TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。
我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-04T03:52:49Z) - Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。
歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。
ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文 参考訳(メタデータ) (2020-09-16T06:33:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。