論文の概要: MambaTrans: Multimodal Fusion Image Translation via Large Language Model Priors for Downstream Visual Tasks
- arxiv url: http://arxiv.org/abs/2508.07803v1
- Date: Mon, 11 Aug 2025 09:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.030912
- Title: MambaTrans: Multimodal Fusion Image Translation via Large Language Model Priors for Downstream Visual Tasks
- Title(参考訳): MambaTrans: 下流視覚タスクに先立つ大規模言語モデルによるマルチモーダル融合画像変換
- Authors: Yushen Xu, Xiaosong Li, Zhenyu Kuang, Xiaoqi Cheng, Haishu Tan, Huafeng Li,
- Abstract要約: MambaTransは、新しい多モード融合画像モダリティトランスレータである。
トレーニング中の検出損失を最小限に抑え、テキスト、マスク、イメージ間の長期的な依存関係をキャプチャする。
公開データセットの実験では、MambaTransは下流タスクにおけるマルチモーダル画像のパフォーマンスを効果的に改善している。
- 参考スコア(独自算出の注目度): 6.603164770657262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of multimodal image fusion is to integrate complementary information from infrared and visible images, generating multimodal fused images for downstream tasks. Existing downstream pre-training models are typically trained on visible images. However, the significant pixel distribution differences between visible and multimodal fusion images can degrade downstream task performance, sometimes even below that of using only visible images. This paper explores adapting multimodal fused images with significant modality differences to object detection and semantic segmentation models trained on visible images. To address this, we propose MambaTrans, a novel multimodal fusion image modality translator. MambaTrans uses descriptions from a multimodal large language model and masks from semantic segmentation models as input. Its core component, the Multi-Model State Space Block, combines mask-image-text cross-attention and a 3D-Selective Scan Module, enhancing pure visual capabilities. By leveraging object detection prior knowledge, MambaTrans minimizes detection loss during training and captures long-term dependencies among text, masks, and images. This enables favorable results in pre-trained models without adjusting their parameters. Experiments on public datasets show that MambaTrans effectively improves multimodal image performance in downstream tasks.
- Abstract(参考訳): マルチモーダル画像融合の目的は、赤外線と可視画像から補完的な情報を統合し、下流タスクのためのマルチモーダル融合画像を生成することである。
既存の下流トレーニングモデルは通常、可視画像に基づいてトレーニングされる。
しかし、可視画像とマルチモーダル画像の画素分布の相違により、ダウンストリームのタスク性能が低下することがある。
本稿では,可視画像上で訓練されたオブジェクト検出とセマンティックセグメンテーションモデルに対して,モダリティが著しく異なるマルチモーダルフューズド画像の適応について検討する。
そこで本研究では,新しいマルチモーダル融合画像モダリティトランスレータであるMambaTransを提案する。
MambaTransはマルチモーダルな言語モデルからの記述とセマンティックセグメンテーションモデルからのマスクを入力として使用する。
コアコンポーネントであるMulti-Model State Space Blockは、マスク-画像-テキストのクロスアテンションと3D-Selective Scan Moduleを組み合わせることで、純粋な視覚能力を向上する。
オブジェクト検出の事前知識を活用することで、MambaTransはトレーニング中の検出損失を最小限に抑え、テキスト、マスク、イメージ間の長期的な依存関係をキャプチャする。
これにより、パラメータを調整することなく、事前訓練されたモデルの良好な結果が得られる。
公開データセットの実験では、MambaTransは下流タスクにおけるマルチモーダル画像のパフォーマンスを効果的に改善している。
関連論文リスト
- FuseLIP: Multimodal Embeddings via Early Fusion of Discrete Tokens [56.752362642658504]
マルチモーダル埋め込みの代替アーキテクチャであるFuseLIPを提案する。
本稿では,テキストと画像トークンの拡張語彙で動作する単一のトランスフォーマーモデルを提案する。
本稿では,VQAやテキスト誘導画像変換検索などのマルチモーダル埋め込みタスクにおいて,FuseLIPが他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-06-03T17:27:12Z) - OSDM-MReg: Multimodal Image Registration based One Step Diffusion Model [8.619958921346184]
マルチモーダルリモートセンシング画像登録は、データ融合と解析のために異なるセンサからの画像を整列する。
我々は,新しいマルチモーダル画像登録フレームワークであるOSDM-MRegを提案する。
実験は、様々なマルチモーダル登録タスクにおいて、精度と効率が優れていることを示す。
論文 参考訳(メタデータ) (2025-04-08T13:32:56Z) - Multimodal-Aware Fusion Network for Referring Remote Sensing Image Segmentation [7.992331117310217]
リモートセンシング画像セグメンテーション(RRSIS)は、リモートセンシング画像セグメンテーションにおける新しい視覚課題である。
我々は,2つのモード間の微粒なアライメントと融合を実現するために,マルチモーダル・アウェア・フュージョン・ネットワーク(MAFN)を設計する。
論文 参考訳(メタデータ) (2025-03-14T08:31:21Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - ImageBind-LLM: Multi-modality Instruction Tuning [70.05191504511188]
ImageBind-LLMは、ImageBindを介して大規模言語モデル(LLM)の多モードインストラクションチューニング手法である。
画像テキストアライメントトレーニングのみにより、オーディオ、3Dポイントクラウド、ビデオ、埋め込み空間演算に応答することができる。
論文 参考訳(メタデータ) (2023-09-07T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。