論文の概要: Halton Scheduler For Masked Generative Image Transformer
- arxiv url: http://arxiv.org/abs/2503.17076v1
- Date: Fri, 21 Mar 2025 12:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:39.268107
- Title: Halton Scheduler For Masked Generative Image Transformer
- Title(参考訳): Halton Scheduler for Masked Generative Image Transformer
- Authors: Victor Besnier, Mickael Chen, David Hurych, Eduardo Valle, Matthieu Cord,
- Abstract要約: Masked Generative Image Transformers (MaskGIT)はスケーラブルで効率的な画像生成フレームワークとして登場した。
トークン間の相互情報に基づいて,MaskGITにおけるサンプリング対象を解析する。
そこで本研究では,最初の信頼性スケジューラの代わりに,Haltonスケジューラに基づく新しいサンプリング戦略を提案する。
- 参考スコア(独自算出の注目度): 51.82285573627426
- License:
- Abstract: Masked Generative Image Transformers (MaskGIT) have emerged as a scalable and efficient image generation framework, able to deliver high-quality visuals with low inference costs. However, MaskGIT's token unmasking scheduler, an essential component of the framework, has not received the attention it deserves. We analyze the sampling objective in MaskGIT, based on the mutual information between tokens, and elucidate its shortcomings. We then propose a new sampling strategy based on our Halton scheduler instead of the original Confidence scheduler. More precisely, our method selects the token's position according to a quasi-random, low-discrepancy Halton sequence. Intuitively, that method spreads the tokens spatially, progressively covering the image uniformly at each step. Our analysis shows that it allows reducing non-recoverable sampling errors, leading to simpler hyper-parameters tuning and better quality images. Our scheduler does not require retraining or noise injection and may serve as a simple drop-in replacement for the original sampling strategy. Evaluation of both class-to-image synthesis on ImageNet and text-to-image generation on the COCO dataset demonstrates that the Halton scheduler outperforms the Confidence scheduler quantitatively by reducing the FID and qualitatively by generating more diverse and more detailed images. Our code is at https://github.com/valeoai/Halton-MaskGIT.
- Abstract(参考訳): Masked Generative Image Transformers (MaskGIT)はスケーラブルで効率的な画像生成フレームワークとして登場し、推論コストの低い高品質なビジュアルを提供することができる。
しかし、MaskGITのトークン・アンマスキング・スケジューラ(フレームワークの重要なコンポーネント)は、それに値する注意を払っていない。
トークン間の相互情報に基づいてMaskGITのサンプリング目的を分析し,その欠点を解明する。
そこで我々は,最初の信頼性スケジューラの代わりにHaltonスケジューラに基づく新しいサンプリング戦略を提案する。
より正確には、準ランダムで低分解能のHlton配列に従ってトークンの位置を選択する。
直感的には、この方法はトークンを空間的に拡散し、各ステップで画像を一様に覆う。
解析の結果,再検索不能なサンプリング誤差を低減し,より単純なハイパーパラメータチューニングと画質向上を実現した。
我々のスケジューラはリトレーニングやノイズ注入を必要とせず、元のサンプリング戦略の簡単な代替手段として機能する可能性がある。
画像ネット上でのクラス・ツー・イメージ合成とCOCOデータセット上でのテキスト・ツー・イメージ生成の両方の評価は、ハルトンスケジューラがFIDを減らし、より多彩で詳細な画像を生成することによって、信頼性スケジューラを定量的に上回ることを示した。
私たちのコードはhttps://github.com/valeoai/Halton-MaskGITにあります。
関連論文リスト
- Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - MAGIC: Mask-Guided Image Synthesis by Inverting a Quasi-Robust
Classifier [37.774220727662914]
単一画像の操作を制御できるワンショットマスク誘導画像合成法を提案する。
提案手法は,事前学習した準ロバスト分類器から構造勾配を利用する。
MAGICは入力上の勾配を集約し、ガイドバイナリマスクによって駆動される。
論文 参考訳(メタデータ) (2022-09-23T12:15:40Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - DCT-Mask: Discrete Cosine Transform Mask Representation for Instance
Segmentation [50.70679435176346]
本稿では、離散コサイン変換(DCT)を用いて、高分解能二元格子マスクをコンパクトなベクトルに符号化することで、新しいマスク表現を提案する。
DCT-Maskと呼ばれるこの手法は、ほとんどのピクセルベースのインスタンスセグメンテーション手法に簡単に統合できる。
論文 参考訳(メタデータ) (2020-11-19T15:00:21Z) - BlendMask: Top-Down Meets Bottom-Up for Instance Segmentation [103.74690082121079]
本研究では,インスタンスレベルの情報とセマンティックな情報と,低レベルの微細な粒度を効果的に組み合わせることで,マスク予測の改善を実現する。
私たちの主な貢献は、トップダウンとボトムアップの両方のインスタンスセグメンテーションアプローチからインスピレーションを得たブレンダーモジュールです。
BlendMaskは、非常に少ないチャネルで、ピクセルあたりの高密度な位置感受性インスタンス機能を効果的に予測し、単一の畳み込み層で各インスタンスの注意マップを学習することができる。
論文 参考訳(メタデータ) (2020-01-02T03:30:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。