論文の概要: UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations
- arxiv url: http://arxiv.org/abs/2603.10702v1
- Date: Wed, 11 Mar 2026 12:14:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.939311
- Title: UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations
- Title(参考訳): UniCom:圧縮連続意味表現による統一マルチモーダルモデリング
- Authors: Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo,
- Abstract要約: 現在の統合マルチモーダルモデルは、通常、モダリティギャップを埋めるために離散的な視覚トークン化器に依存している。
圧縮された連続表現によるマルチモーダル理解と生成を調和させる統一フレームワークUniComを導入する。
- 参考スコア(独自算出の注目度): 45.861324782424326
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current unified multimodal models typically rely on discrete visual tokenizers to bridge the modality gap. However, discretization inevitably discards fine-grained semantic information, leading to suboptimal performance in visual understanding tasks. Conversely, directly modeling continuous semantic representations (e.g., CLIP, SigLIP) poses significant challenges in high-dimensional generative modeling, resulting in slow convergence and training instability. To resolve this dilemma, we introduce UniCom, a unified framework that harmonizes multimodal understanding and generation via compressed continuous representation. We empirically demonstrate that reducing channel dimension is significantly more effective than spatial downsampling for both reconstruction and generation. Accordingly, we design an attention-based semantic compressor to distill dense features into a compact unified representation. Furthermore, we validate that the transfusion architecture surpasses query-based designs in convergence and consistency. Experiments demonstrate that UniCom achieves state-of-the-art generation performance among unified models. Notably, by preserving rich semantic priors, it delivers exceptional controllability in image editing and maintains image consistency even without relying on VAE.
- Abstract(参考訳): 現在の統合マルチモーダルモデルは、通常、モダリティギャップを埋めるために離散的な視覚トークン化器に依存している。
しかし、離散化は必然的にきめ細かな意味情報を破棄し、視覚的理解タスクにおいて最適以下のパフォーマンスをもたらす。
逆に、連続的意味表現(例えば、CLIP、SigLIP)を直接モデル化することは、高次元生成モデリングにおいて大きな課題を生じさせ、収束の遅さと不安定性の訓練をもたらす。
このジレンマを解決するために、圧縮された連続表現によるマルチモーダル理解と生成を調和させる統一フレームワークUniComを導入する。
チャネル次元の減少は, 再建と生成の両面において, 空間的なダウンサンプリングよりも有意に効果的であることを示す。
そこで我々は,高密度な特徴をコンパクトな統一表現に変換するために,注目に基づくセマンティック圧縮機を設計する。
さらに,コンバージェンスと一貫性において,トランスフュージョンアーキテクチャがクエリベースの設計を超越していることを検証する。
実験により、UniComは統一モデル間で最先端の世代性能を達成することが示された。
特に、リッチなセマンティックな事前保存によって、画像編集において例外的な制御性を提供し、VAEに頼ることなく、画像の一貫性を維持する。
関連論文リスト
- CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension [49.6969505536365]
生成能力を保ちつつ、検索のためのマルチモーダル表現を強化する統一的なフレームワークであるCREMを提案する。
CREMはMMEB上での最先端検索性能を達成し,複数の理解ベンチマーク上での強力な生成性能を維持する。
論文 参考訳(メタデータ) (2026-02-22T08:09:51Z) - Training-Free Representation Guidance for Diffusion Models with a Representation Alignment Projector [14.027059904924135]
本稿では,プロジェクタによって予測される表現を中間サンプリングステップに注入するアライメントアライメントプロジェクタを提案する。
SiTとREPAの実験は、クラス条件の画像ネット合成において顕著に改善されている。
提案手法は,SiTモデルに適用した場合の代表的なガイダンスより優れる。
論文 参考訳(メタデータ) (2026-01-30T02:29:54Z) - Enhancing Semi-Supervised Multi-View Graph Convolutional Networks via Supervised Contrastive Learning and Self-Training [9.300953069946969]
グラフ畳み込みネットワーク(GCN)に基づく多視点学習は、異種視点から構造情報を統合するための強力なフレームワークを提供する。
既存のメソッドはビューをまたいだ補完的な情報を十分に活用することができず、最適化された特徴表現と限られたパフォーマンスに繋がる。
MV-SupGCNは,複数の相補的成分と明確なモチベーションと相互強化を統合した半教師付きGCNモデルである。
論文 参考訳(メタデータ) (2025-12-15T16:39:23Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - UniMRSeg: Unified Modality-Relax Segmentation via Hierarchical Self-Supervised Compensation [104.59740403500132]
マルチモーダルイメージセグメンテーションは、不完全/破損したモダリティの劣化による実際のデプロイメント課題に直面している。
階層型自己教師型補償(HSSC)による統一Modality-relaxセグメンテーションネットワーク(UniMRSeg)を提案する。
我々のアプローチは、入力レベル、特徴レベル、出力レベルをまたいだ完全なモダリティと不完全なモダリティの間の表現ギャップを階層的に橋渡しします。
論文 参考訳(メタデータ) (2025-09-19T17:29:25Z) - Equal is Not Always Fair: A New Perspective on Hyperspectral Representation Non-Uniformity [42.8098014428052]
ハイパースペクトル画像(HSI)の表現は、広汎な非一様性によって根本的に挑戦される。
フェアネス指向のフレームワークであるFairHypを提案する。
本研究は,HSIモデリングにおける構造的必要条件として公正性を再定義し,適応性,効率,忠実性のバランスをとるための新たなパラダイムを提供する。
論文 参考訳(メタデータ) (2025-05-16T14:00:11Z) - Enhancing Multimodal Unified Representations for Cross Modal Generalization [52.16653133604068]
我々は、コードブック(TOC)のトレーニング不要最適化と、FCID(Fin and Coarse Cross-modal Information Disentangling)を提案する。
これらの方法は、各モードの特定の特性に合わせて、事前学習から統一された離散表現を洗練し、きめ細かな情報と粗い情報の絡み合わせを行う。
論文 参考訳(メタデータ) (2024-03-08T09:16:47Z) - Auto-regressive Image Synthesis with Integrated Quantization [55.51231796778219]
本稿では,条件付き画像生成のための多目的フレームワークを提案する。
CNNの帰納バイアスと自己回帰の強力なシーケンスモデリングが組み込まれている。
提案手法は,最先端技術と比較して,優れた多彩な画像生成性能を実現する。
論文 参考訳(メタデータ) (2022-07-21T22:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。