論文の概要: End-to-End Multi-Modal Diffusion Mamba
- arxiv url: http://arxiv.org/abs/2510.13253v1
- Date: Wed, 15 Oct 2025 08:03:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.557098
- Title: End-to-End Multi-Modal Diffusion Mamba
- Title(参考訳): エンド・ツー・エンド多モード拡散マンバ
- Authors: Chunhao Lu, Qiang Lu, Meichen Dong, Jake Luo,
- Abstract要約: MDM(Multi-modal Diffusion Mamba)と呼ばれる新しいアーキテクチャを提案する。
MDMは、マンバをベースとした多段階選択拡散モデルを用いて、モーダリティ固有の情報を段階的に生成し、洗練する。
画像生成, 画像キャプション, 視覚的質問応答, テキスト理解, 推論タスクなどの領域における評価は, MDMが既存のエンド・ツー・エンドモデルを大幅に上回っていることを示す。
- 参考スコア(独自算出の注目度): 3.297588995401909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current end-to-end multi-modal models utilize different encoders and decoders to process input and output information. This separation hinders the joint representation learning of various modalities. To unify multi-modal processing, we propose a novel architecture called MDM (Multi-modal Diffusion Mamba). MDM utilizes a Mamba-based multi-step selection diffusion model to progressively generate and refine modality-specific information through a unified variational autoencoder for both encoding and decoding. This innovative approach allows MDM to achieve superior performance when processing high-dimensional data, particularly in generating high-resolution images and extended text sequences simultaneously. Our evaluations in areas such as image generation, image captioning, visual question answering, text comprehension, and reasoning tasks demonstrate that MDM significantly outperforms existing end-to-end models (MonoFormer, LlamaGen, and Chameleon etc.) and competes effectively with SOTA models like GPT-4V, Gemini Pro, and Mistral. Our results validate MDM's effectiveness in unifying multi-modal processes while maintaining computational efficiency, establishing a new direction for end-to-end multi-modal architectures.
- Abstract(参考訳): 現在のエンド・ツー・エンドのマルチモーダルモデルでは、異なるエンコーダとデコーダを使用して入力および出力情報を処理している。
この分離は、様々なモダリティの合同表現学習を妨げる。
マルチモーダル処理を統合するため,MDM (Multi-modal Diffusion Mamba) と呼ばれる新しいアーキテクチャを提案する。
MDMは、Mambaベースの多段階選択拡散モデルを用いて、符号化と復号の両方のために統一された変分オートエンコーダを通じて、モーダリティ固有の情報を段階的に生成し、洗練する。
この革新的なアプローチにより、MDMは高次元データを処理する際に、特に高解像度の画像と拡張テキストシーケンスを同時に生成する際に、優れたパフォーマンスを実現することができる。
画像生成, 画像キャプション, 視覚的質問応答, テキスト理解, 推論タスクなどの分野での評価は, MDMが既存のエンドツーエンドモデル(MonoFormer, LlamaGen, Chameleonなど)を著しく上回り, GPT-4V, Gemini Pro, MistralなどのSOTAモデルと効果的に競合することを示す。
計算効率を保ちながらマルチモーダルプロセスの統合におけるMDMの有効性を検証し、エンド・ツー・エンドのマルチモーダルアーキテクチャの新たな方向性を確立した。
関連論文リスト
- Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。
本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。
実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2025-09-30T17:59:46Z) - M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - MIND: Modality-Informed Knowledge Distillation Framework for Multimodal Clinical Prediction Tasks [50.98856172702256]
マルチモーダルモデル圧縮手法である MIND (Modality-Informed Knowledge Distillation) フレームワークを提案する。
MINDは、様々なサイズの事前訓練されたディープニューラルネットワークのアンサンブルから、より小さなマルチモーダルの学生に知識を伝達する。
時系列データと胸部X線画像を用いた2値および複数ラベルの臨床予測タスクにおけるMINDの評価を行った。
論文 参考訳(メタデータ) (2025-02-03T08:50:00Z) - Dynamic Multimodal Fusion via Meta-Learning Towards Micro-Video Recommendation [97.82707398481273]
メタマルチモーダルフュージョン(MetaMMF)と呼ばれるメタラーニングに基づく新しいマルチモーダルフュージョンフレームワークを開発する。
メタMMFは、入力タスクのマルチモーダル特徴から抽出されたメタ情報に基づいて、メタラーナを介して、アイテム固有の融合関数としてニューラルネットワークをパラメータ化する。
我々は3つのベンチマークデータセットに対して広範な実験を行い、最先端のマルチモーダルレコメンデーションモデルに対する大幅な改善を実証した。
論文 参考訳(メタデータ) (2025-01-13T07:51:43Z) - EMMA: Empowering Multi-modal Mamba with Structural and Hierarchical Alignment [39.870809905905325]
微細な視覚情報を抽出するための構造的・階層的アライメント(EMMA)を用いたマルチモーダルマンバのエンパワーディングを提案する。
本モデルでは,他のマンバ系MLLMよりもレイテンシが低く,推論時の変圧器系MLLMよりも約4倍高速であることを示す。
論文 参考訳(メタデータ) (2024-10-08T11:41:55Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。