論文の概要: TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2512.02014v1
- Date: Mon, 01 Dec 2025 18:59:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:35.041656
- Title: TUNA: Taming Unified Visual Representations for Native Unified Multimodal Models
- Title(参考訳): TUNA: ネイティブ統一マルチモーダルモデルのための統一視覚表現のモデリング
- Authors: Zhiheng Liu, Weiming Ren, Haozhe Liu, Zijian Zhou, Shoufa Chen, Haonan Qiu, Xiaoke Huang, Zhaochong An, Fanny Yang, Aditya Patel, Viktar Atliha, Tony Ng, Xiao Han, Chuyan Zhu, Chenyang Zhang, Ding Liu, Juan-Manuel Perez-Rua, Sen He, Jürgen Schmidhuber, Wenhu Chen, Ping Luo, Wei Liu, Tao Xiang, Jonas Schult, Yuren Cong,
- Abstract要約: 統一マルチモーダルモデル(UMM)は,単一のフレームワーク内でのマルチモーダル理解と生成を共同で行うことを目的としている。
本稿では、VAEエンコーダを表現エンコーダでカスケードすることで、統一された連続的な視覚表現を構築するネイティブUMMであるTUNAを提案する。
- 参考スコア(独自算出の注目度): 96.41974190202642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified multimodal models (UMMs) aim to jointly perform multimodal understanding and generation within a single framework. We present TUNA, a native UMM that builds a unified continuous visual representation by cascading a VAE encoder with a representation encoder. This unified representation space allows end-to-end processing of images and videos for both understanding and generation tasks. Compared to prior UMMs with decoupled representations, TUNA's unified visual space avoids representation format mismatches introduced by separate encoders, outperforming decoupled alternatives in both understanding and generation. Moreover, we observe that stronger pretrained representation encoders consistently yield better performance across all multimodal tasks, highlighting the importance of the representation encoder. Finally, in this unified setting, jointly training on both understanding and generation data allows the two tasks to benefit from each other rather than interfere. Our extensive experiments on multimodal understanding and generation benchmarks show that TUNA achieves state-of-the-art results in image and video understanding, image and video generation, and image editing, demonstrating the effectiveness and scalability of its unified representation design.
- Abstract(参考訳): 統一マルチモーダルモデル(UMM)は,単一のフレームワーク内でのマルチモーダル理解と生成を共同で行うことを目的としている。
本稿では、VAEエンコーダを表現エンコーダでカスケードすることで、統一された連続的な視覚表現を構築するネイティブUMMであるTUNAを提案する。
この統一表現空間は、画像とビデオのエンドツーエンド処理を、理解タスクと生成タスクの両方で可能にします。
従来のUMMと切り離された表現と比較すると、TUNAの統一された視覚空間は、異なるエンコーダによって導入された表現形式ミスマッチを回避し、理解と生成の両方において切り離された代替品より優れている。
さらに、より強い事前訓練された表現エンコーダは、全てのマルチモーダルタスクにおいて、常により良いパフォーマンスが得られることを観察し、表現エンコーダの重要性を強調した。
最後に、この統合された環境では、理解と生成データの両方を共同でトレーニングすることで、2つのタスクが干渉するのではなく、お互いの恩恵を受けることができます。
マルチモーダル理解および生成ベンチマークに関する広範な実験により、TUNAは画像と映像の理解、画像と映像の生成、画像編集において、その統一表現設計の有効性とスケーラビリティを実証した。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [55.01077993490845]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。