論文の概要: Bag of Design Choices for Inference of High-Resolution Masked Generative Transformer
- arxiv url: http://arxiv.org/abs/2411.10781v1
- Date: Sat, 16 Nov 2024 11:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:34:47.790500
- Title: Bag of Design Choices for Inference of High-Resolution Masked Generative Transformer
- Title(参考訳): 高分解能マスケ発生形変圧器における設計選択のバグ
- Authors: Shitong Shao, Zikai Zhou, Tian Ye, Lichen Bai, Zhiqiang Xu, Zeke Xie,
- Abstract要約: Masked Generative Transformer (MGT) は、DMと自己回帰モデル(ARM)の間の有望な仲介役である
我々は、MGTのための一連のDMベースの推論手法を修正・再設計し、さらにMGTの性能を解明する。
我々はHPS v2のバニラサンプリングと最近のSOTA MGT Meissonicと比較して約70%の勝利率を達成した。
- 参考スコア(独自算出の注目度): 20.145862858765245
- License:
- Abstract: Text-to-image diffusion models (DMs) develop at an unprecedented pace, supported by thorough theoretical exploration and empirical analysis. Unfortunately, the discrepancy between DMs and autoregressive models (ARMs) complicates the path toward achieving the goal of unified vision and language generation. Recently, the masked generative Transformer (MGT) serves as a promising intermediary between DM and ARM by predicting randomly masked image tokens (i.e., masked image modeling), combining the efficiency of DM with the discrete token nature of ARM. However, we find that the comprehensive analyses regarding the inference for MGT are virtually non-existent, and thus we aim to present positive design choices to fill this gap. We modify and re-design a set of DM-based inference techniques for MGT and further elucidate their performance on MGT. We also discuss the approach to correcting token's distribution to enhance inference. Extensive experiments and empirical analyses lead to concrete and effective design choices, and these design choices can be merged to achieve further performance gains. For instance, in terms of enhanced inference, we achieve winning rates of approximately 70% compared to vanilla sampling on HPS v2 with the recent SOTA MGT Meissonic. Our contributions have the potential to further enhance the capabilities and future development of MGTs.
- Abstract(参考訳): テキスト・ツー・イメージ拡散モデル(DM)は、徹底的な理論的探索と経験的分析によって支えられ、前例のないペースで発展する。
残念ながら、DMと自己回帰モデル(ARM)の相違は、統一されたビジョンと言語生成の目標を達成するための道筋を複雑にしている。
近年、マスク付き生成変換器(MGT)は、ランダムなマスク付き画像トークン(マスク付き画像モデリング)を予測し、DMの効率をARMの離散トークン特性と組み合わせることで、DMとARMの間の有望な仲介役として機能している。
しかし,MGTの推測に関する包括的分析はほとんど存在せず,このギャップを埋めるためにポジティブな設計選択を提示することを目指している。
我々は、MGTのための一連のDMベースの推論手法を修正・再設計し、さらにMGTの性能を解明する。
また、推論を強化するためにトークンの分布を補正するアプローチについても論じる。
大規模な実験と実証分析は、具体的で効果的な設計選択をもたらし、これらの設計選択をマージしてさらなる性能向上を達成することができる。
例えば,HPS v2 のバニラサンプリングと最近の SOTA MGT Meissonic の勝利率は約70% である。
我々の貢献は、MGTの能力と今後の発展をさらに促進する可能性がある。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。
IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。
ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。
以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。
本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T16:26:56Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。
DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。
本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。
我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文 参考訳(メタデータ) (2024-05-23T12:45:29Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - On Reinforcement Learning and Distribution Matching for Fine-Tuning
Language Models with no Catastrophic Forgetting [5.5302127686575435]
Reward Maximization (RM) と、最近では Distribution Matching (DM) の2つのパラダイムがこの課題に取り組むために登場した。
RM用に開発されたKL制御などの手法も,DMに属するものと解釈できることを示す。
2つのパラダイム間の接続を利用して、ベースラインの概念をDMメソッドにインポートします。
論文 参考訳(メタデータ) (2022-06-01T20:54:41Z) - Distributional Robustness with IPMs and links to Regularization and GANs [10.863536797169148]
機械学習における分散に基づく不確実性セットを通して、ロバスト性を研究する。
F$-GANs を用いて, 対向生成モデルに光を当てるために, 実験結果を拡張した。
論文 参考訳(メタデータ) (2020-06-08T04:41:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。