Fugu-MT 論文翻訳(概要): Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

論文の概要: Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training

arxiv url: http://arxiv.org/abs/2603.16139v1
Date: Tue, 17 Mar 2026 05:41:48 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.115839
Title: Rethinking UMM Visual Generation: Masked Modeling for Efficient Image-Only Pre-training
Title（参考訳）: UMMビジュアル生成の再考:効率的な画像専用事前学習のためのマスク付きモデリング
Authors: Peng Sun, Jun Xie, Tao Lin,
Abstract要約: データ効率のよい2段階トレーニングフレームワークである UMM (IOMM) の $textbf Image-Only Training を提案する。第1ステージは、豊富なラベル付けされていない画像のみのデータを使用して、ビジュアル生成コンポーネント$textbfexclusively$を事前トレーニングする。第2段階は、ラベルのない画像と小さなキュレートされたテキストイメージペアを使ってモデルを微調整し、命令アライメントと生成品質を改善した。
参考スコア（独自算出の注目度）: 16.148088520940796
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Unified Multimodal Models (UMMs) are often constrained by the pre-training of their $\textbf{visual generation components}$, which typically relies on inefficient paradigms and scarce, high-quality text-image paired data. In this paper, we systematically analyze pre-training recipes for $\textbf{UMM visual generation}$ and identify these two issues as the major bottlenecks. To address them, we propose $\textbf{Image-Only Training for UMMs (IOMM)}$, a data-efficient two-stage training framework. The first stage pre-trains the visual generative component $\textbf{exclusively}$ using abundant unlabeled image-only data, thereby removing the dependency on paired data $\textbf{for this costly phase}$. The second stage fine-tunes the model using a mixture of unlabeled images and a small curated set of text-image pairs, leading to improved instruction alignment and generative quality. Extensive experiments show that IOMM not only improves training efficiency but also achieves state-of-the-art (SOTA) performance. For example, our IOMM-B (3.6B) model was trained from scratch using only $\sim \textbf{1050}$ H800 GPU hours (with the vast majority, $\textbf{1000}$ hours, dedicated to the efficient $\textbf{image-only pre-training stage}$). It achieves $\textbf{0.89}$ on GenEval and $\textbf{0.55}$ on WISE--surpassing strong baselines such as BAGEL-7B (0.82 & 0.55) and BLIP3-o-4B (0.84 & 0.50). Code is available $\href{https://github.com/LINs-lab/IOMM}{https://github.com/LINs-lab/IOMM}$.
Abstract（参考訳）: Unified Multimodal Models (UMMs) はしばしば $\textbf{visual generation components}$ の事前トレーニングによって制約される。本稿では,$\textbf{UMM visual generation}$の事前学習レシピを体系的に分析し,これらの2つの問題を主要なボトルネックとして同定する。そこで我々は,データ効率のよい2段階トレーニングフレームワークである$\textbf{Image-Only Training for UMMs (IOMM)$を提案する。最初のステージでは、豊富なラベルのないイメージのみのデータを使用して、ビジュアル生成コンポーネント $\textbf{exclusively}$ を事前トレーニングすることで、ペアデータ $\textbf{for this costly phase}$ への依存を取り除く。第2段階は、ラベルのない画像と小さなキュレートされたテキストイメージペアを使ってモデルを微調整し、命令アライメントと生成品質を改善した。大規模な実験により、IOMMはトレーニング効率を向上するだけでなく、最先端(SOTA)のパフォーマンスも達成することが示された。例えば、我々のIOMM-B(3.6B)モデルは、$\sim \textbf{1050}$ H800 GPU時間(大半は$\textbf{1000}$時間、効率的な$\textbf{image-only pre-training stage}$)を使用して、ゼロからトレーニングされました。 GenEvalでは$\textbf{0.89}$、WISEでは$\textbf{0.55}$となり、BAGEL-7B (0.82 & 0.55) やBLIP3-o-4B (0.84 & 0.50) のような強いベースラインをバイパスする。コードは$\href{https://github.com/LINs-lab/IOMM}{https://github.com/LINs-lab/IOMM}$で入手できる。

関連論文リスト

Simple yet Effective Semi-supervised Knowledge Distillation from Vision-Language Models via Dual-Head Optimization [47.38380084735716]
大規模な画像テキストペアで事前訓練された視覚教師付きモデル(VLM)は、顕著なゼロ/フェーショット性能を示した。知識蒸留(KD)は、VLM能力を伝達するための自然な枠組みを提供するが、監督と蒸留の損失の間の勾配の衝突に悩まされる。本稿では,異なる信号に対して2つの予測ヘッドを導入するDual-Head Optimization (DHO)を提案する。
論文参考訳（メタデータ） (2025-05-12T15:39:51Z)
Uncovering Untapped Potential in Sample-Efficient World Model Agents [51.65485693709418]
Simulusは高度にモジュール化されたTBWMエージェントで、マルチモーダルトークン化フレームワーク、本質的なモチベーション、優先順位付けされたWMリプレイ、レグレッション・アズ・クラス化を統合している。 Simulusは3つの異なるベンチマークで、計画自由なWMに対して最先端のサンプル効率を達成する。
論文参考訳（メタデータ） (2025-02-17T08:06:10Z)
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency [47.3163261953469]
現在の視覚言語生成モデルは、最適な性能と一般化能力を達成するために、ペア画像テキストデータの拡張コーパスに依存している。サイクル整合性の概念に基づく革新的なトレーニングパラダイムであるITITを導入する。 ITITは、分離された画像とテキストデコーダを備えたジョイントな画像テキストエンコーダで構成され、単一のフレームワークで双方向の画像テキスト生成とテキスト画像生成を可能にする。
論文参考訳（メタデータ） (2023-10-05T17:55:19Z)
Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文参考訳（メタデータ） (2023-06-02T19:19:43Z)
Batch Model Consolidation: A Multi-Task Model Consolidation Framework [14.687385545898776]
連続学習(CL)では、以前に学習したタスクの大幅な性能劣化を伴わずに、連続的にタスクのストリームを学習するモデルが求められている。我々は,複数のエージェントがタスクの範囲に露出する条件下で,より現実的なCLをサポートするために,バッチモデル統合(textbfBMC$)を提案する。提案手法は次の最良CL手法を70%向上させ,71タスクの終了時に性能を維持できる唯一の手法である。
論文参考訳（メタデータ） (2023-05-25T21:33:56Z)
Cross-Modal Adapter for Vision-Language Retrieval [60.59577149733934]
パラメータ効率の伝達学習のためのクロスモーダル適応器を提案する。アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。提案手法には,(1)微調整パラメータの大部分の削減,(2)トレーニング時間の短縮,(3)事前学習パラメータの修正,という3つの特長がある。
論文参考訳（メタデータ） (2022-11-17T16:15:30Z)
A Simple Data Mixing Prior for Improving Self-Supervised Learning [52.28244748245043]
SDMP($textbfS$imple $textbfD$ata $textbfM$ixing $textbfP$rior)を提案する。提案したSDMPは,データ混合により,自己教師付き学習フレームワークの精度向上と分布外ロバスト性向上に有効であることを確認した。
論文参考訳（メタデータ） (2022-06-15T17:40:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。