論文の概要: ParaUni: Enhance Generation in Unified Multimodal Model with Reinforcement-driven Hierarchical Parallel Information Interaction
- arxiv url: http://arxiv.org/abs/2512.05422v1
- Date: Fri, 05 Dec 2025 04:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.902736
- Title: ParaUni: Enhance Generation in Unified Multimodal Model with Reinforcement-driven Hierarchical Parallel Information Interaction
- Title(参考訳): ParaUni: 強化駆動型階層型並列情報インタラクションを用いた統一マルチモーダルモデルのエンハンス生成
- Authors: Jiangtong Tan, Lin Liu, Jie Huanng, Xiaopeng Zhang, Qi Tian, Feng Zhao,
- Abstract要約: 統一マルチモーダルモデルでは、視覚の粒度モデル(VLM)と拡散モデルを組み合わせることで、視覚生成を著しく改善する。
既存の手法は、表現の差が大きいため、十分な相互作用と柔軟な実装のバランスをとるのに苦労する。
我々は,textbfParallel方式でVLMの変形層から特徴を抽出し,包括的情報インタラクションを実現するtextbfParaUniを提案する。
- 参考スコア(独自算出の注目度): 55.21514454560188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unified multimodal models significantly improve visual generation by combining vision-language models (VLMs) with diffusion models. However, existing methods struggle to fully balance sufficient interaction and flexible implementation due to vast representation difference. Considering abundant and hierarchical information in VLM's layers from low-level details to high-level semantics, we propose \textbf{ParaUni}. It extracts features from variants VLM's layers in a \textbf{Para}llel way for comprehensive information interaction and retains a flexible separation architecture to enhance generation in \textbf{Uni}fied multimodal model. Concretely, visual features from all VLM's layers are fed in parallel into a Layer Integration Module (LIM), which efficiently integrates fine-grained details and semantic abstractions and provides the fused representation as a condition to the diffusion model. To further enhance performance, we reveal that these hierarchical layers respond unequally to different rewards in Reinforcement Learning (RL). Crucially, we design a Layer-wise Dynamic Adjustment Mechanism (LDAM) to facilitate multiple reward improvements that aligns the hierarchical properties of these layers using RL. Extensive experiments show ParaUni leverages complementary multi-layer features to substantially improve generation quality and shows strong potential for multiple reward advances during RL stages. Code is available at https://github.com/JosephTiTan/ParaUni.
- Abstract(参考訳): 統一マルチモーダルモデルは、視覚言語モデル(VLM)と拡散モデルを組み合わせることで、視覚生成を著しく改善する。
しかし、既存の手法は、表現の差が大きいため、十分な相互作用と柔軟な実装のバランスをとるのに苦労している。
低レベルの詳細から高レベルのセマンティクスまで、VLMの層内の豊富な階層情報を考えると、ここでは \textbf{ParaUni} を提案する。
これは、情報インタラクションを包括的に行う方法であるtextbf{Para}llel の変種 VLM 層から特徴を抽出し、フレキシブルな分離アーキテクチャを保持して、 \textbf{Uni}fied multimodal model の生成を強化する。
具体的には、すべてのVLMレイヤの視覚的特徴をレイヤ統合モジュール(LIM)に並列に供給し、詳細やセマンティックな抽象化を効率的に統合し、拡散モデルの条件として融合表現を提供する。
さらに,これらの階層層が,強化学習(RL)における異なる報酬に不等に対応することを明らかにする。
重要なことは、RLを用いてこれらの層の階層特性を整合させる複数の報酬改善を容易にするために、LDAM(Layer-wise Dynamic Adjustment Mechanism)を設計する。
大規模な実験により、ParaUniは相補的な多層構造を利用して生成品質を大幅に向上し、RL段階における複数の報酬の進展の可能性を示す。
コードはhttps://github.com/JosephTiTan/ParaUni.comで入手できる。
関連論文リスト
- RECALL: REpresentation-aligned Catastrophic-forgetting ALLeviation via Hierarchical Model Merging [33.22889542330089]
大規模言語モデル(LLM)の内部表現は、学習知識の信頼できるプロキシとして機能する。
本稿では,過去データにアクセスせずに連続的な学習を行うための表現認識モデル統合フレームワークRECALLを提案する。
論文 参考訳(メタデータ) (2025-10-23T12:17:37Z) - Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - MMRL++: Parameter-Efficient and Interaction-Aware Representation Learning for Vision-Language Models [4.828668077793944]
マルチモーダル表現学習は、テキストと画像エンコーダの両方に投影された空間トークンを表現トークンとして生成する。
MML++はパラメータ効率と対話性を考慮した拡張で、トレーニング可能なパラメータを大幅に削減する。
15データセットの実験では、MMRLとMMRL++が一貫して最先端のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2025-05-15T08:43:53Z) - Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。
本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文 参考訳(メタデータ) (2024-10-08T11:41:55Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Learning Hierarchical Features with Joint Latent Space Energy-Based
Prior [44.4434704520236]
階層表現学習における多層ジェネレータモデルの基本的問題について検討する。
実効的階層型表現学習のための多層潜在変数を用いた有意な潜在空間EMM事前モデルを提案する。
論文 参考訳(メタデータ) (2023-10-14T15:44:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。