論文の概要: Uni-X: Mitigating Modality Conflict with a Two-End-Separated Architecture for Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2509.24365v1
- Date: Mon, 29 Sep 2025 07:05:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.805429
- Title: Uni-X: Mitigating Modality Conflict with a Two-End-Separated Architecture for Unified Multimodal Models
- Title(参考訳): Uni-X: 統一マルチモーダルモデルのための2端分離アーキテクチャによるモダリティ衝突の軽減
- Authors: Jitai Hao, Hao Liu, Xinyan Xiao, Qiang Huang, Jun Yu,
- Abstract要約: We propose Uni-X, a two-end-separated, middle-shared architecture for unified multimodal model。
Uni-Xは、その初期層と最終層をモダリティ固有の処理に捧げ、ハイレベルなセマンティックフュージョンのために中間層で共有パラメータを維持している。
この結果から,Uni-Xは将来の統一マルチモーダルモデリングのためのパラメータ効率・拡張性の基礎として確立された。
- 参考スコア(独自算出の注目度): 27.38501052629525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified Multimodal Models (UMMs) built on shared autoregressive (AR) transformers are attractive for their architectural simplicity. However, we identify a critical limitation: when trained on multimodal inputs, modality-shared transformers suffer from severe gradient conflicts between vision and text, particularly in shallow and deep layers. We trace this issue to the fundamentally different low-level statistical properties of images and text, while noting that conflicts diminish in middle layers where representations become more abstract and semantically aligned. To overcome this challenge, we propose Uni-X, a two-end-separated, middle-shared architecture. Uni-X dedicates its initial and final layers to modality-specific processing, while maintaining shared parameters in the middle layers for high-level semantic fusion. This X-shaped design not only eliminates gradient conflicts at both ends but also further alleviates residual conflicts in the shared layers. Extensive experiments validate the effectiveness of Uni-X. Under identical training conditions, Uni-X achieves superior training efficiency compared to strong baselines. When scaled to 3B parameters with larger training data, Uni-X matches or surpasses 7B AR-based UMMs, achieving a GenEval score of 82 for image generation alongside strong performance in text and vision understanding tasks. These results establish Uni-X as a parameter-efficient and scalable foundation for future unified multimodal modeling. Our code is available at https://github.com/CURRENTF/Uni-X
- Abstract(参考訳): 共有自己回帰(AR)トランスフォーマー上に構築された統一マルチモーダルモデル(UMM)は、そのアーキテクチャの単純さに魅力がある。
マルチモーダル入力のトレーニングでは、モダリティシェードトランスフォーマーは、特に浅い層と深い層において、視覚とテキストの間の深刻な勾配の衝突に悩まされる。
我々はこの問題を、画像とテキストの基本的な低レベルな統計特性に遡り、表現がより抽象的で意味論的に整合する中間層では、対立は減少する、と指摘する。
この課題を克服するため、両端分離型ミドルシェードアーキテクチャであるUni-Xを提案する。
Uni-Xは、その初期層と最終層をモダリティ固有の処理に捧げ、ハイレベルなセマンティックフュージョンのために中間層で共有パラメータを維持している。
このX字型設計は、両端の勾配の衝突を除去するだけでなく、共有層内の残差の衝突を緩和する。
大規模な実験により、Uni-Xの有効性が検証された。
同一の訓練条件下では、Uni-Xは強いベースラインに比べて訓練効率が優れている。
トレーニングデータが大きい3Bパラメータにスケールすると、Uni-Xは7B ARベースのUMMと一致または超える。
これらの結果は、将来の統一マルチモーダルモデリングのためのパラメータ効率でスケーラブルな基盤としてUni-Xを確立している。
私たちのコードはhttps://github.com/CURRENTF/Uni-Xで利用可能です。
関連論文リスト
- MAGE: Multimodal Alignment and Generation Enhancement via Bridging Visual and Semantic Spaces [23.447713697204225]
MAGEは、革新的なアライメント機構を通じて視覚とテキストの意味空間をブリッジする新しいフレームワークである。
我々は、クロスエントロピーと平均二乗誤差を組み合わせたトレーニング戦略を採用し、アライメント効果を著しく向上させる。
提案するマルチモーダル大規模モデルアーキテクチャであるMAGEは,様々な評価ベンチマークにおける類似の手法と比較して,性能が大幅に向上した。
論文 参考訳(メタデータ) (2025-07-29T12:17:46Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - UniFork: Exploring Modality Alignment for Unified Multimodal Understanding and Generation [39.921363034430875]
統一された画像理解と生成は、マルチモーダル人工知能において有望なパラダイムとして浮上している。
本研究では,タスク固有の専門家モデルの理解と生成のためのモダリティアライメント行動について検討する。
タスクの干渉を避けるため,タスク固有の分岐を深いレイヤに導入しながら,タスクのタスク表現学習のための浅いレイヤを共有する,新しいY字型アーキテクチャであるUniForkを紹介した。
論文 参考訳(メタデータ) (2025-06-20T17:52:31Z) - Manifold-aware Representation Learning for Degradation-agnostic Image Restoration [135.90908995927194]
画像復元(IR)は、ノイズ、ぼかし、迷路、雨、低照度といった様々な汚職に影響を受ける劣化した入力から高品質な画像を復元することを目的としている。
我々は、入力特徴空間を3つのセマンティックに整列した並列分岐に明示的に分解する1つのIRにおいて、すべてに統一されたフレームワークであるMIRAGEを提案する。
このモジュラ分解は、多種多様な分解の一般化と効率を大幅に改善する。
論文 参考訳(メタデータ) (2025-05-24T12:52:10Z) - QoS-Efficient Serving of Multiple Mixture-of-Expert LLMs Using Partial Runtime Reconfiguration [0.0]
Mixtral-8x7Bモデルを使用した1台のNVIDIA A100 GPU(80GB)を持つサーバは、NVIDIAのマルチインスタンスGPU(MIG)と比較して、ターンアラウンド時間を平均85%削減している。
最大4つのバリエーションを備えたGoogleのSwitch Transformer Base-8モデルに関する実験では、他のモデルのマージベースラインと比較して、アウトプット品質の維持における我々のアプローチのスケーラビリティとレジリエンスが示され、その効果が強調されている。
論文 参考訳(メタデータ) (2025-05-10T00:46:04Z) - An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。
混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文 参考訳(メタデータ) (2025-04-15T08:19:12Z) - ARNet: Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - UniCLIP: Unified Framework for Contrastive Language-Image Pre-training [62.97551575508387]
コントラスト言語-画像事前学習のための統一フレームワークUniCLIPを提案する。
UniCLIPは、ドメイン間のペアとドメイン内のペアの対比的な損失を単一の普遍空間に統合する。
UniCLIPは、様々な単一モードおよび多モードダウンストリームタスクにおいて、以前の視覚言語事前学習方法より優れている。
論文 参考訳(メタデータ) (2022-09-27T14:36:16Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。