Fugu-MT 論文翻訳(概要): MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings

論文の概要: MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings

arxiv url: http://arxiv.org/abs/2604.19902v1
Date: Tue, 21 Apr 2026 18:25:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:10.74479
Title: MMCORE: MultiModal COnnection with Representation Aligned Latent Embeddings
Title（参考訳）: MMCORE:Representation Aligned Latent Embeddingsを用いたマルチモーダル・コネクション
Authors: Zijie Li, Yichun Shi, Jingxiang Sun, Ye Wang, Yixuan Huang, Zhiyao Guo, Xiaochen Lian, Peihao Zhu, Yu Tian, Zhonghua Zhai, Peng Wang,
Abstract要約: 本稿では,マルチモーダル画像生成と編集のための統合フレームワークMMCOREを提案する。 MMCOREは事前訓練されたビジョンランゲージモデルを利用して、学習可能なクエリトークンを介して意味的な視覚的な埋め込みを予測する。 MMCOREは、テキストと画像の幅広い範囲とシングル/マルチイメージの編集ベンチマークにおいて、最先端のベースラインを一貫して上回っている。
参考スコア（独自算出の注目度）: 26.87298230984385
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present MMCORE, a unified framework designed for multimodal image generation and editing. MMCORE leverages a pre-trained Vision-Language Model (VLM) to predict semantic visual embeddings via learnable query tokens, which subsequently serve as conditioning signals for a diffusion model. This streamlined design effectively transfers the rich understanding and reasoning capabilities of VLMs into the visual generation process. By obviating the need for deep fusion between autoregressive and diffusion models or training from scratch, MMCORE significantly reduces computational overhead while maintaining high-fidelity synthesis. MMCORE seamlessly integrates text-to-image synthesis with interleaved image generation, demonstrating robust multimodal comprehension in complex scenarios such as spatial reasoning and visual grounding. Comprehensive evaluations indicate that MMCORE consistently outperforms state-of-the-art baselines across a broad spectrum of text-to-image and single/multi-image editing benchmarks.
Abstract（参考訳）: 本稿では,マルチモーダル画像生成と編集のための統合フレームワークMMCOREを提案する。 MMCOREは、事前訓練されたビジョンランゲージモデル(VLM)を利用して、学習可能なクエリトークンを介して意味的な視覚的埋め込みを予測し、拡散モデルの条件付け信号として機能する。この合理化設計は、VLMの豊かな理解と推論能力を視覚生成プロセスに効果的に転送する。自己回帰モデルと拡散モデルとの深い融合の必要性を回避し、あるいはゼロからトレーニングを行うことで、MMCOREは高忠実度合成を維持しながら計算オーバーヘッドを著しく低減する。 MMCOREは、テキスト間合成とインターリーブ画像生成をシームレスに統合し、空間的推論や視覚的接地といった複雑なシナリオにおいて、堅牢なマルチモーダル理解を実証する。総合的な評価は、MMCOREがテキスト・ツー・イメージとシングル・マルチ・イメージの編集ベンチマークの幅広い範囲にわたって、最先端のベースラインを一貫して上回っていることを示している。

関連論文リスト

Growing Visual Generative Capacity for Pre-Trained MLLMs [60.826355079902505]
Bridgeは純粋な自己回帰統合MLLMであり、学習済みの視覚的理解モデルを生成能力で強化する。本稿では,コンパクトなセマンティックトークンと微細なピクセルトークンを統合するセマンティック・ツー・ピクセルの離散表現を提案する。
論文参考訳（メタデータ） (2025-10-02T00:40:02Z)
Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-09-30T17:59:46Z)
Lavida-O: Elastic Large Masked Diffusion Models for Unified Multimodal Understanding and Generation [63.50827603618498]
マルチモーダル理解と生成のための統一型マスク付き拡散モデル(MDM)であるLavida-Oを提案する。 Lavida-Oは、画像レベルの理解、オブジェクトのグラウンド化、画像編集、高解像度のテキスト・ツー・イメージ合成を可能にする単一のフレームワークを提供する。 Lavida-Oは、RefCOCOオブジェクトグラウンド、GenEvalテキスト画像生成、ImgEdit画像編集など、幅広いベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-09-23T17:05:46Z)
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling [64.09238330331195]
本稿では,MMAR(Multi-Modal Auto-Regressive)確率モデルフレームワークを提案する。離散化の手法とは異なり、MMARは情報損失を効率的に回避するために、連続的に評価された画像トークンを取り入れている。また,数値安定性問題に対処する理論的に実証された手法と,タスク目標の生成と理解のバランスをとるトレーニング戦略を提案する。
論文参考訳（メタデータ） (2024-10-14T17:57:18Z)
MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。 MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文参考訳（メタデータ） (2024-08-22T11:57:16Z)
TIE: Revolutionizing Text-based Image Editing for Complex-Prompt Following and High-Fidelity Editing [23.51498634405422]
マルチモーダルな大言語モデルの頑健な推論とローカライズ機能を活用した,革新的な画像編集フレームワークを提案する。提案モデルでは,複雑なプロンプトを理解し,対応する画像を生成する能力が向上し,生成前後の画像の忠実度と一貫性が向上した。
論文参考訳（メタデータ） (2024-05-27T03:50:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。