論文の概要: Reconstruction Alignment Improves Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2509.07295v1
- Date: Mon, 08 Sep 2025 23:59:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.153129
- Title: Reconstruction Alignment Improves Unified Multimodal Models
- Title(参考訳): リコンストラクションアライメントは統一マルチモーダルモデルを改善する
- Authors: Ji Xie, Trevor Darrell, Luke Zettlemoyer, XuDong Wang,
- Abstract要約: 統一マルチモーダルモデル(UMM)は、単一のアーキテクチャ内で視覚的理解と生成を統一する。
リコンストラクションアライメント(Reconstruction Alignment, RecA)は、視覚理解エンコーダの埋め込みを「テキストプロンプト」として活用するリソース効率の高いポストトレーニング手法である。
わずか27GPU時間で、RecAによる後トレーニングはGenEvalとDPGBenchの画像生成性能を大幅に改善する。
- 参考スコア(独自算出の注目度): 92.78189113827335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73$\rightarrow$0.90) and DPGBench (80.93$\rightarrow$88.15), while also boosting editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は、単一のアーキテクチャ内で視覚的理解と生成を統一する。
しかし、従来の訓練は、字幕がスパースできめ細かな視覚的詳細を見逃すイメージテキストペア(またはシーケンス)に依存している。
リコンストラクションアライメント(RecA)は、視覚理解エンコーダの埋め込みを高密度な「テキストプロンプト」として活用し、キャプションなしでリッチな監視を行うリソース効率の良いポストトレーニング手法である。
具体的には、RecAは、自身の視覚的理解埋め込みにUMMを条件付け、それを最適化して、自己監督された再構成損失で入力イメージを再構築し、理解と生成を実現する。
自己回帰、マスク付き自己回帰、拡散に基づく UMM を通じて、RecA は一貫して生成と編集の忠実性を改善する。
わずか27時間でRecAを使用した後、GenEval (0.73$\rightarrow$0.90) と DPGBench (80.93$\rightarrow$88.15) の画像生成性能を大幅に改善し、また編集ベンチマークも強化した(ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25)。
特に、RecAはより大規模なオープンソースモデルを超え、様々なUMMアーキテクチャに広く適用し、UMMの効率的で一般的なポストトレーニングアライメント戦略として確立している。
関連論文リスト
- UniRef-Image-Edit: Towards Scalable and Consistent Multi-Reference Image Editing [33.64590153603506]
高性能なマルチモーダル生成システムUniRef-Image-Editを提案する。
単一画像編集と複数画像合成を単一のフレームワークに統合する。
論文 参考訳(メタデータ) (2026-02-15T15:24:03Z) - UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model [50.68870074090426]
我々はUniWeTokを紹介した。UniWeTokはUniified Multimodal Large Language Modelsのための統一された離散トークンである。
トレーニングフレームワークとして,個別トークンのセマンティックな抽出と生成を促進するために,プレポスト蒸留とジェネレーティブ・アウェア・プレファレンスを導入する。
我々は,UniWeTokの適応性を高めるために,様々な画像解像度と知覚に敏感なシナリオを横断する3段階のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-15T15:07:19Z) - Generation Enhances Understanding in Unified Multimodal Models via Multi-Representation Generation [53.18286807225952]
統一マルチモーダルモデル(UMM)は、視覚的理解と生成の両方を単一のフレームワークに統合する。
単純なアーキテクチャに依存しないポストトレーニング手法であるUniMRG(Unified Multi-Representation Generation)を提案する。
提案手法は, 微粒化知覚を高め, 幻覚を低減し, 空間的理解を向上し, 同時に生成能力を向上する。
論文 参考訳(メタデータ) (2026-01-29T08:42:25Z) - Understanding the Implicit User Intention via Reasoning with Large Language Model for Image Editing [23.69189799564107]
既存の画像編集手法は、単純な編集命令をうまく処理できる。
複雑な編集命令を扱うためには、大きな言語モデル(LLM)と拡散モデル(DM)を共同で微調整する必要があることが多い。
我々は,textbfLLM textbfReasoning (CIELR) による textbfComplex textbfImage textbfEditing と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-10-31T10:06:28Z) - SRUM: Fine-Grained Self-Rewarding for Unified Multimodal Models [44.79249920949795]
Unified Multimodal Models (UMM) は、視覚言語の生成と理解機能を単一のフレームワークに統合する。
モデルはユーザの指示に基づいてイメージを正しく理解するが、テキストプロンプトから忠実なイメージを生成することはできない。
SRUMは,様々な設計の既存のUMMに直接適用可能な,自己回帰型ポストトレーニングフレームワークである。
論文 参考訳(メタデータ) (2025-10-14T17:56:11Z) - Unified Multimodal Model as Auto-Encoder [69.38946823657592]
本稿では,テキストに画像を圧縮するエンコーダ(I2T)と,そのテキストから画像を再構成するデコーダ(T2I)の理解に関するパラダイムを紹介する。
我々の経験的結果は、理解は生成を大幅に促進し(GenEvalで検証されている)、生成は、特にきめ細かい視覚知覚を強化することを示唆している。
論文 参考訳(メタデータ) (2025-09-11T17:57:59Z) - MSGCoOp: Multiple Semantic-Guided Context Optimization for Few-Shot Learning [0.8249694498830561]
本稿では,マルチセマンティック・ガイド型コンテキスト最適化(MSGCoOp)フレームワークを提案する。
我々のアプローチは、並列学習可能なコンテキストベクトルのアンサンブルを利用して、多様な意味的側面をキャプチャする。
11のベンチマークデータセットの実験により、MSGCoOpはベース・ツー・ノーベルの一般化の性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-07-29T13:15:09Z) - Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback [33.127607245587576]
本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。
我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。
RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
論文 参考訳(メタデータ) (2025-07-28T12:21:19Z) - Scale Your Instructions: Enhance the Instruction-Following Fidelity of Unified Image Generation Model by Self-Adaptive Attention Scaling [54.54513714247062]
OmniGenのような統合画像生成モデルの最近の進歩により、単一のフレームワーク内で多様な画像生成および編集タスクの処理が可能になった。
テキスト命令が複数のサブインストラクションを含む場合,テキスト命令の無視に悩まされることがわかった。
本稿では,サブインストラクション毎に注意力の活性化を動的にスケールするために,自己適応型注意スケーリングを提案する。
論文 参考訳(メタデータ) (2025-07-22T05:25:38Z) - VARGPT-v1.1: Improve Visual Autoregressive Large Unified Model via Iterative Instruction Tuning and Reinforcement Learning [40.75264235359017]
VARGPT-v1.1は高度な統合視覚自己回帰モデルである。
このモデルは、視覚的理解のための次世代予測と画像合成のための次世代生成という2つのパラダイムを保存している。
マルチモーダル理解とテキスト・ツー・イメージ・インストラクション・フォロータスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-04-03T18:06:28Z) - TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - Aligning Vision to Language: Annotation-Free Multimodal Knowledge Graph Construction for Enhanced LLMs Reasoning [10.761218096540976]
LLM(Large Language Models)におけるマルチモーダル推論は、不完全な知識と幻覚に苦しむ。
本稿では,マルチモーダルな知識グラフを構築するための新しいアプローチであるVaLiK(Vision-Align-to-Language Integrated Knowledge Graph)を提案する。
論文 参考訳(メタデータ) (2025-03-17T09:31:14Z) - Multi-View Large Reconstruction Model via Geometry-Aware Positional Encoding and Attention [54.66152436050373]
本稿では,M-LRM(Multi-view Large Restruction Model)を提案する。
具体的には、M-LRMが入力画像から情報を正確にクエリできるマルチビュー整合型クロスアテンション方式を提案する。
従来の手法と比較して,提案手法は高忠実度の3次元形状を生成することができる。
論文 参考訳(メタデータ) (2024-06-11T18:29:13Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。