論文の概要: MASTER: Multimodal Segmentation with Text Prompts
- arxiv url: http://arxiv.org/abs/2503.04199v1
- Date: Thu, 06 Mar 2025 08:27:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:21.305785
- Title: MASTER: Multimodal Segmentation with Text Prompts
- Title(参考訳): MASTER: テキストプロンプトによるマルチモーダルセグメンテーション
- Authors: Fuyang Liu, Shun Lu, Jilin Mei, Yu Hu,
- Abstract要約: RGB-熱融合は、挑戦的なシナリオにおける様々な気象や光条件に対する潜在的な解決策である。
大規模言語モデル (LLMs) の広範な適用により, 付加価値情報を自然言語からより効果的に抽出することができる。
RGB-Thermal マルチモーダルデータの融合に LLM を統合した MultimodAl with TExt PRompts (MASTER) アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 8.277597982871516
- License:
- Abstract: RGB-Thermal fusion is a potential solution for various weather and light conditions in challenging scenarios. However, plenty of studies focus on designing complex modules to fuse different modalities. With the widespread application of large language models (LLMs), valuable information can be more effectively extracted from natural language. Therefore, we aim to leverage the advantages of large language models to design a structurally simple and highly adaptable multimodal fusion model architecture. We proposed MultimodAl Segmentation with TExt PRompts (MASTER) architecture, which integrates LLM into the fusion of RGB-Thermal multimodal data and allows complex query text to participate in the fusion process. Our model utilizes a dual-path structure to extract information from different modalities of images. Additionally, we employ LLM as the core module for multimodal fusion, enabling the model to generate learnable codebook tokens from RGB, thermal images, and textual information. A lightweight image decoder is used to obtain semantic segmentation results. The proposed MASTER performs exceptionally well in benchmark tests across various automated driving scenarios, yielding promising results.
- Abstract(参考訳): RGB-熱融合は、挑戦的なシナリオにおける様々な気象や光条件に対する潜在的な解決策である。
しかし、多くの研究は、異なるモダリティを融合させる複雑なモジュールの設計に焦点を当てている。
大規模言語モデル (LLMs) の広範な適用により, 付加価値情報を自然言語からより効果的に抽出することができる。
そこで本研究では,大規模言語モデルの利点を活用して,構造的にシンプルで適応性の高いマルチモーダル融合モデルアーキテクチャを設計することを目的とする。
我々は、RTG-サーマルマルチモーダルデータの融合にLLMを統合し、複雑なクエリテキストを融合プロセスに参加できるようにする、TExt PRompts (MASTER) アーキテクチャを用いたMultimodAl Segmentationを提案する。
このモデルでは、画像の異なるモーダルから情報を抽出するために、デュアルパス構造を用いる。
さらに,マルチモーダル融合のコアモジュールとしてLLMを採用し,RGB,サーマル画像,テキスト情報から学習可能なコードブックトークンを生成する。
セマンティックセグメンテーション結果を得るために、軽量画像デコーダを用いる。
提案したMASTERは、様々な自動走行シナリオのベンチマークテストにおいて極めて良好に動作し、有望な結果をもたらす。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation [37.45387861441091]
SAM4MLLMはSegment Anything Model(SAM)とMulti-Modal Large Language Models(MLLM)を統合する革新的なアプローチである。
提案手法により,MLLMは既存のモデルアーキテクチャに過剰な修正を加えたり,特別なトークンを追加することなく,ピクセルレベルの位置情報を学習することができる。
詳細な視覚情報と、大きな言語モデルの強力な表現能力とを、学習における計算オーバーヘッドを増大させることなく、統一された言語ベースの方法で組み合わせる。
論文 参考訳(メタデータ) (2024-09-01T12:09:33Z) - UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models [0.42832989850721054]
MEL(Multimodal Entities Linking)は、ウィキペディアのようなマルチモーダル知識ベースの参照エンティティに、多モーダルコンテキスト内で曖昧な言及をリンクすることを目的とした重要なタスクである。
既存の方法はMELタスクを過度に複雑にし、視覚的意味情報を見渡す。
大規模言語モデルを用いたマルチモーダル・エンティティ・リンクタスクを処理するための新しいパラダイムを確立する統一フレームワークUniMELを提案する。
論文 参考訳(メタデータ) (2024-07-23T03:58:08Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。