Fugu-MT 論文翻訳(概要): Bag of Design Choices for Inference of High-Resolution Masked Generative Transformer

論文の概要: Bag of Design Choices for Inference of High-Resolution Masked Generative Transformer

arxiv url: http://arxiv.org/abs/2411.10781v2
Date: Thu, 27 Feb 2025 13:51:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.264756
Title: Bag of Design Choices for Inference of High-Resolution Masked Generative Transformer
Title（参考訳）: 高分解能マスケ発生形変圧器における設計選択のバグ
Authors: Shitong Shao, Zikai Zhou, Tian Ye, Lichen Bai, Zhiqiang Xu, Zeke Xie,
Abstract要約: Masked Generative Transformer (MGT) は、DMと自己回帰モデル(ARM)の間の有望な仲介役である MGTに適した拡張推論手法の提案と再設計を行う。本稿では,MGTにおけるサンプリングプロセスの高速化を目的としたDMベースのアプローチについて検討する。
参考スコア（独自算出の注目度）: 20.145862858765245
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Text-to-image diffusion models (DMs) develop at an unprecedented pace, supported by thorough theoretical exploration and empirical analysis. Unfortunately, the discrepancy between DMs and autoregressive models (ARMs) complicates the path toward achieving the goal of unified vision and language generation. Recently, the masked generative Transformer (MGT) serves as a promising intermediary between DM and ARM by predicting randomly masked image tokens (i.e., masked image modeling), combining the efficiency of DM with the discrete token nature of ARM. However, we find that the comprehensive analyses regarding the inference for MGT are virtually non-existent, and thus we aim to present positive design choices to fill this gap. We propose and redesign a set of enhanced inference techniques tailored for MGT, providing a detailed analysis of their performance. Additionally, we explore several DM-based approaches aimed at accelerating the sampling process on MGT. Extensive experiments and empirical analyses on the recent SOTA MGT, such as MaskGIT and Meissonic lead to concrete and effective design choices, and these design choices can be merged to achieve further performance gains. For instance, in terms of enhanced inference, we achieve winning rates of approximately 70% compared to vanilla sampling on HPS v2 with Meissonic-1024x1024.
Abstract（参考訳）: テキスト・ツー・イメージ拡散モデル(DM)は、徹底的な理論的探索と経験的分析によって支えられ、前例のないペースで発展する。残念ながら、DMと自己回帰モデル(ARM)の相違は、統一されたビジョンと言語生成の目標を達成するための道筋を複雑にしている。近年、マスク付き生成変換器(MGT)は、ランダムなマスク付き画像トークン(マスク付き画像モデリング)を予測し、DMの効率をARMの離散トークン特性と組み合わせることで、DMとARMの間の有望な仲介役として機能している。しかし,MGTの推測に関する包括的分析はほとんど存在せず,このギャップを埋めるためにポジティブな設計選択を提示することを目指している。本稿では,MGTに適した拡張推論手法の提案と再設計を行い,その性能を詳細に分析する。さらに,MGTにおけるサンプリングプロセスの高速化を目的としたDMベースのアプローチについても検討する。 MaskGIT や Meissonic のような最近の SOTA MGT に関する大規模な実験と実証分析により、具体的な設計選択と効果的な設計選択が導かれ、これらの設計選択をマージしてさらなる性能向上を達成することができる。例えば、拡張推論では、Meissonic-1024x1024のHPS v2のバニラサンプリングと比較して、約70%の勝利率を達成する。

関連論文リスト

Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文参考訳（メタデータ） (2025-06-09T17:38:45Z)
Error Analyses of Auto-Regressive Video Diffusion Models: A Unified Framework [127.61297651993561]
様々な自動回帰ビデオ拡散モデル(ARVDM)は、リアルなロングフォームビデオの生成において顕著な成功を収めた。我々はこれらのモデルに関する理論的基盤を開発し、既存のモデルの性能を改善するために洞察を利用する。
論文参考訳（メタデータ） (2025-03-12T15:32:44Z)
Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文参考訳（メタデータ） (2024-12-19T13:25:39Z)
Efficient Generative Modeling with Residual Vector Quantization-Based Tokens [5.949779668853557]
ResGenは、高速サンプリングによる高忠実度生成のための効率的な残留ベクトル量子化に基づく生成モデルである。我々は,ImageNet 256x256における条件付き画像生成とゼロショット音声合成の2つの課題に対して,提案手法の有効性と一般化性を検証する。 RVQの深さを拡大するにつれて、我々の生成モデルは、同様の大きさのベースラインモデルと比較して、より優れた生成忠実度またはより高速なサンプリング速度を示す。
論文参考訳（メタデータ） (2024-12-13T15:31:17Z)
Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。私たちのフレームワークは、3つの新しい目標のファミリーにつながります。 Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文参考訳（メタデータ） (2024-10-10T17:18:30Z)
Masked Diffusion Models are Secretly Time-Agnostic Masked Models and Exploit Inaccurate Categorical Sampling [47.82616476928464]
仮面拡散モデル (MDM) は離散データの生成モデルとして人気がある。我々はMDMのトレーニングとサンプリングの両方が理論的に時間変数から解放されていることを示す。一般に使用されている32ビット浮動小数点精度においても,まず基礎となる数値問題を同定した。
論文参考訳（メタデータ） (2024-09-04T17:48:19Z)
Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。 IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文参考訳（メタデータ） (2024-07-22T15:35:09Z)
Chain-of-Thought Prompting for Demographic Inference with Large Multimodal Models [58.58594658683919]
大規模マルチモーダルモデル (LMM) は、様々な研究課題において変換可能性を示している。以上の結果から,LMMはゼロショット学習,解釈可能性,未修正入力の処理に長所があることが示唆された。本稿では,目標外予測問題を効果的に緩和するChain-of-Thought拡張プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-05-24T16:26:56Z)
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルだが効果的なアプローチであるDEEMを提案する。 DEEMは、トレーニング可能なパラメータが少なく、事前学習データが少なく、ベースモデルのサイズが小さいことを利用して、モデル幻覚を軽減するために、強化された堅牢性と優れた能力を示す。
論文参考訳（メタデータ） (2024-05-24T05:46:04Z)
Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast [58.98411447739218]
Mixture-of-Experts (MoE) は、計算効率を保ちながら、モデルサイズをスケールするための顕著なアーキテクチャとして登場した。本研究では,無声専門家を推論中に自己コントラスト的に活用する学習自由戦略である自己コントラスト混合(SCMoE)を提案する。我々の手法は概念的には単純で計算量も軽量であり、グリージー復号法に比べて最小限の遅延を発生させる。
論文参考訳（メタデータ） (2024-05-23T12:45:29Z)
MIMIC: Mask Image Pre-training with Mix Contrastive Fine-tuning for Facial Expression Recognition [11.820043444385432]
Mix Contrastive Fine-tuning (MIMIC) を用いた Mask Image pre-training という新しいFERトレーニングパラダイムを導入する。初期段階では、一般画像のマスク画像再構成により、ViTを事前訓練する。微調整段階において、より広範囲の正のサンプルを用いてモデルを強化する混合教師付きコントラスト学習プロセスを導入する。
論文参考訳（メタデータ） (2024-01-14T10:30:32Z)
On the Robustness of Large Multimodal Models Against Image Adversarial Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。一般的に,LMMは視覚的逆入力に対して頑健ではない。本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-12-06T04:59:56Z)
Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文参考訳（メタデータ） (2023-10-15T07:20:28Z)
Sampling From Autoencoders' Latent Space via Quantization And Probability Mass Function Concepts [1.534667887016089]
本稿では,確率質量関数の概念に根ざした新しい学習後サンプリングアルゴリズムと量子化プロセスを紹介する。提案アルゴリズムは,入力データから各潜伏ベクトルの近傍を定め,その近傍からサンプルを抽出する。この戦略的なアプローチは、サンプル化された潜伏ベクトルが主に高確率領域に居住することを保証する。
論文参考訳（メタデータ） (2023-08-21T13:18:12Z)
VERITE: A Robust Benchmark for Multimodal Misinformation Detection Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報はソーシャルメディアのプラットフォームで増え続けている問題です本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文参考訳（メタデータ） (2023-04-27T12:28:29Z)
IMKGA-SM: Interpretable Multimodal Knowledge Graph Answer Prediction via Sequence Modeling [3.867363075280544]
マルチモーダル知識グラフリンク予測は,マルチモーダルデータに対するリンク予測タスクの精度と効率を向上させることを目的としている。シーケンスモデリングによる解釈可能なマルチモーダル知識グラフアンサー予測(IMKGA-SM)の開発モデルは、異なるサイズのマルチモーダルリンク予測データセットに基づいて、SOTAベースラインよりもはるかに優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2023-01-06T10:08:11Z)
On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting [5.5302127686575435]
Reward Maximization (RM) と、最近では Distribution Matching (DM) の2つのパラダイムがこの課題に取り組むために登場した。 RM用に開発されたKL制御などの手法も,DMに属するものと解釈できることを示す。 2つのパラダイム間の接続を利用して、ベースラインの概念をDMメソッドにインポートします。
論文参考訳（メタデータ） (2022-06-01T20:54:41Z)
Distributional Robustness with IPMs and links to Regularization and GANs [10.863536797169148]
機械学習における分散に基づく不確実性セットを通して、ロバスト性を研究する。 F$-GANs を用いて, 対向生成モデルに光を当てるために, 実験結果を拡張した。
論文参考訳（メタデータ） (2020-06-08T04:41:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。