論文の概要: Segmentation as A Plug-and-Play Capability for Frozen Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2510.16785v1
- Date: Sun, 19 Oct 2025 10:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.144746
- Title: Segmentation as A Plug-and-Play Capability for Frozen Multimodal LLMs
- Title(参考訳): 冷凍多モードLCMのプラグアンドプレイ機能としてのセグメンテーション
- Authors: Jiazhen Liu, Long Chen,
- Abstract要約: LENS(Leveraging kEypoiNts for MLLMs)は,新しいプラグアンドプレイソリューションである。
LENSは軽量で訓練可能なヘッドを完全に凍結されたMLLMに取り付ける。
セグメンテーション性能は、リトレーニングベースの手法と競合するか、優れている。
- 参考スコア(独自算出の注目度): 9.6979217203587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Integrating diverse visual capabilities into a unified model is a significant trend in Multimodal Large Language Models (MLLMs). Among these, the inclusion of segmentation poses a distinct set of challenges. To equip MLLMs with pixel-level segmentation abilities, prevailing methods require finetuning the model to produce specific outputs compatible with a mask decoder. This process typically alters the model's output space and compromises its intrinsic generalization, which undermines the goal of building a unified model. We introduce LENS (Leveraging kEypoiNts for MLLMs' Segmentation), a novel plug-and-play solution. LENS attaches a lightweight, trainable head to a completely frozen MLLM. By refining the spatial cues embedded in attention maps, LENS extracts keypoints and describes them into point-wise features directly compatible with the mask decoder. Extensive experiments validate our approach: LENS achieves segmentation performance competitive with or superior to that of retraining-based methods. Crucially, it does so while fully preserving the MLLM's generalization capabilities, which are significantly degraded by finetuning approaches. As such, the attachable design of LENS establishes an efficient and powerful paradigm for extending MLLMs, paving the way for truly multi-talented, unified models.
- Abstract(参考訳): 多様な視覚機能を統一モデルに統合することは、MLLM(Multimodal Large Language Models)において重要なトレンドである。
これらのうち、セグメンテーションの含め込みは、異なる課題の集合を生じさせる。
MLLMにピクセルレベルのセグメンテーション能力を持たせるためには、マスクデコーダと互換性のある特定の出力を生成するためにモデルを微調整する必要がある。
このプロセスは典型的にはモデルの出力空間を変更し、本質的な一般化を妥協し、統一モデルを構築するという目標を損なう。
LENS(Leveraging kEypoiNts for MLLMs' Segmentation)は,新しいプラグアンドプレイソリューションである。
LENSは軽量で訓練可能なヘッドを完全に凍結されたMLLMに取り付ける。
注意マップに埋め込まれた空間的手がかりを精製することにより、LENSはキーポイントを抽出し、マスクデコーダと直接互換性のあるポイントワイズに記述する。
LENSは、リトレーニングベースの手法と競合する、あるいは優れているセグメンテーション性能を達成する。
重要なことは、MLLMの一般化能力を完全に保ちながら、それは微調整アプローチによって著しく劣化する。
したがって、LENS のアタッチ可能な設計は、MLLM を拡張するための効率的で強力なパラダイムを確立し、真にマルチテナントで統一されたモデルへの道を開いた。
関連論文リスト
- Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents [55.82787697101274]
Bifrost-1は、事前訓練されたマルチモーダルLLM(MLLM)と拡散モデルをブリッジする統合フレームワークである。
予め訓練したMLLMと拡散モデルとパッチレベルのCLIPラプタントをシームレスに統合することにより,高忠実度制御可能な画像生成を実現する。
実験の結果,Bifrost-1は視覚的忠実度やマルチモーダル理解の観点から,従来の手法と同等あるいは優れた性能を達成できた。
論文 参考訳(メタデータ) (2025-08-08T02:38:47Z) - Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decoder [18.236863512276187]
本稿では,MLLMビジョンエンコーダに符号化された視覚的特徴を,余分な視覚的エンコーダを導入することなく活用する新しいフレームワークを提案する。
さらに,MLLMの大規模言語モデル(LLM)によって出力される意味関連特徴と,詳細関連視覚特徴とを完全に統合した,詳細拡張型・意味整合型特徴融合モジュール(DSFF)を提案する。
我々の手法は一般にSAMベースの競合とSAMフリーの競合に勝り、性能とコストのバランスが良くなる。
論文 参考訳(メタデータ) (2025-08-06T06:06:52Z) - SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories [52.57696897619189]
MLLMが対話型セグメンテーションツールを用いた人間のアノテーションを模倣する新しいパラダイムであるHLMAT(Human-Like Mask Modeling Task)を紹介する。
HLMATにより、MLLMはテキストベースのクリックポイントを反復的に生成し、アーキテクチャの変更や暗黙のトークンなしで高品質なマスクを実現することができる。
HLMATは、MLLMの微細なピクセル理解を評価するためのプロトコルを提供し、視覚中心の多段階意思決定タスクを導入している。
論文 参考訳(メタデータ) (2025-03-11T17:08:54Z) - LEO: Boosting Mixture of Vision Encoders for Multimodal Large Language Models [9.660892239615364]
本研究は、ハイブリッドMLLMのための視覚トークンの融合戦略を探求し、LEOの設計に繋がる。
Leoは、適応後の融合戦略と適応型タイリングを組み込んだデュアルブランチビジョンエンコーダフレームワークを備えた、新しいMLLMである。
LEOは、モデルアーキテクチャやトレーニングレシピを変更することなく、自律運転の専門領域に適応できることを示す。
論文 参考訳(メタデータ) (2025-01-13T00:29:55Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。