論文の概要: FocusDiT: Masking Queries in Diffusion Transformers for Fine-grained Image Generation
- arxiv url: http://arxiv.org/abs/2606.02090v2
- Date: Tue, 02 Jun 2026 15:33:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.552147
- Title: FocusDiT: Masking Queries in Diffusion Transformers for Fine-grained Image Generation
- Title(参考訳): FocusDiT:微細な画像生成のための拡散変換器におけるマスキングクエリ
- Authors: Xueji Fang, Liyuan Ma, Jianhao Zeng, Jinjin Cao, Mingyuan Zhou, Guo-Jun Qi,
- Abstract要約: 拡散変圧器(DiT)は、生成拡散場において広く採用されている。
より複雑な詳細に対応する重要なクエリトークンに注目することは、きめ細かいビジュアル生成に不可欠である。
本研究では,FFNにのみ入力される重要なクエリトークンにマスキング方式を適用するFocusDiTを提案する。
- 参考スコア(独自算出の注目度): 64.71746346442445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion transformer (DiT) has been widely adopted in the generative diffusion field, advancing the denoising of query tokens through attention and Feed-Forward (\text{FFN}) layers. FFN actually acts as the key-value vocabulary for decoding visual contents where the value embeds the visual semantical knowledge. We present that focusing on critical query tokens corresponding to more complex details and encouraging the model to improve these tokens is essential for fine-grained visual generation. To this end, we propose FocusDiT, which applies a Masking scheme to focus on critical query tokens that are exclusively fed into FFN. The masked queries can retrieve visual tokens from the FFN vocabularies, and use them to decode their visual details. Extensive text-to-image experiments validate the effectiveness of token masking in enhancing generative performance.
- Abstract(参考訳): 拡散変圧器(DiT)は生成拡散領域において広く採用されており、注目層とフィードフォワード層(\text{FFN})を介してクエリトークンの復号化を進めてきた。
FFNは実際には、その値が視覚的意味論的知識を埋め込んだ視覚内容のデコードのためのキー-バリュー語彙として機能する。
より複雑な詳細に対応する重要なクエリトークンに注目し、これらのトークンを改善するようモデルに促すことは、きめ細かいビジュアル生成に不可欠である。
そこで本研究では,FocusDiTを提案する。このFocusDiTは,FFNにのみ入力されるクリティカルなクエリトークンにフォーカスするために,Maskingスキームを適用している。
マスクされたクエリは、FFN語彙から視覚トークンを検索し、それらを使用して視覚的詳細をデコードする。
大規模なテキスト・ツー・イメージ実験は、生成性能を高めるためにトークンマスキングの有効性を検証する。
関連論文リスト
- Don't Settle Too Early: Self-Reflective Remasking for Diffusion Language Models [40.902681492117786]
RemeDiはマスクベースのDLMで、トークンの分布と各ステップにおけるトークン毎の信頼スコアを予測する。
モデルに不正トークンを検出して再マスクする教師付き微調整を含む、この能力をトレーニングするために、リマスク対応パイプラインをトレーニングします。
実験により、RemeDiは複数のデータセット上のオープンソースのDLMの最先端の結果を達成することが示された。
論文 参考訳(メタデータ) (2025-09-28T05:39:49Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Understanding the Effect of using Semantically Meaningful Tokens for Visual Representation Learning [40.08368469646114]
視覚言語事前学習フレームワーク内のトランスフォーマーエンコーダに対して意味論的に意味のある視覚トークンを提供する。
テキスト・ツー・イメージ検索タスクと画像・テキスト検索タスク間で学習された表現品質のViTに対する顕著な改善を示す。
論文 参考訳(メタデータ) (2024-05-26T01:46:22Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Rethinking Global Context in Crowd Counting [70.54184500538338]
純粋な変換器は、重なり合う画像パッチからグローバル情報で特徴を抽出するために用いられる。
分類によってインスピレーションを得て、入力シーケンスにコンテキストトークンを追加し、画像パッチに対応するトークンと情報交換を容易にする。
論文 参考訳(メタデータ) (2021-05-23T12:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。