論文の概要: DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors
- arxiv url: http://arxiv.org/abs/2602.14134v1
- Date: Sun, 15 Feb 2026 13:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.665048
- Title: DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors
- Title(参考訳): DenseMLLM: 標準マルチモーダルLCMは本質的なDense Predictorである
- Authors: Yi Li, Hongze Shen, Lexiang Tang, Xin Li, Xinpeng Ding, Yinsong Liu, Deqiang Jiang, Xing Sun, Xiaomeng Li,
- Abstract要約: MLLM(Multimodal Large Language Models)は、ハイレベルな視覚的理解において、例外的な能力を示す。
本研究では,タスク固有のデコーダを必要とせず,高密度な予測を行うための標準MLLMの調整により,このパラダイムに挑戦する。
提案したモデルはDenseMLLMと呼ばれ、複数のラベルやタスクに対するトークン管理戦略を新しいビジョンで実現した標準アーキテクチャに基づいている。
- 参考スコア(独自算出の注目度): 35.10865834512272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated exceptional capabilities in high-level visual understanding. However, extending these models to fine-grained dense prediction tasks, such as semantic segmentation and depth estimation, typically necessitates the incorporation of complex, task-specific decoders and other customizations. This architectural fragmentation increases model complexity and deviates from the generalist design of MLLMs, ultimately limiting their practicality. In this work, we challenge this paradigm by accommodating standard MLLMs to perform dense predictions without requiring additional task-specific decoders. The proposed model is called DenseMLLM, grounded in the standard architecture with a novel vision token supervision strategy for multiple labels and tasks. Despite its minimalist design, our model achieves highly competitive performance across a wide range of dense prediction and vision-language benchmarks, demonstrating that a standard, general-purpose MLLM can effectively support dense perception without architectural specialization.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、ハイレベルな視覚的理解において、例外的な能力を示す。
しかし、これらのモデルをセマンティックセグメンテーションや深さ推定のような細かな密集した予測タスクに拡張するには、通常、複雑なタスク固有のデコーダやその他のカスタマイズが必要である。
このアーキテクチャの断片化はモデルの複雑さを高め、MLLMの一般設計から逸脱し、最終的に実用性を制限する。
本研究では,タスク固有のデコーダを必要とせず,高密度な予測を行うための標準MLLMの調整により,このパラダイムに挑戦する。
提案したモデルはDenseMLLMと呼ばれ、複数のラベルやタスクのための新しいビジョントークン管理戦略によって、標準アーキテクチャに基づいている。
その最小限の設計にもかかわらず、我々のモデルは広範囲の高密度予測とビジョン言語ベンチマークで高い競争性能を達成し、標準の汎用MLLMがアーキテクチャの特殊化を伴わずに高密度認識を効果的にサポートできることを実証した。
関連論文リスト
- Segmentation as A Plug-and-Play Capability for Frozen Multimodal LLMs [9.6979217203587]
LENS(Leveraging kEypoiNts for MLLMs)は,新しいプラグアンドプレイソリューションである。
LENSは軽量で訓練可能なヘッドを完全に凍結されたMLLMに取り付ける。
セグメンテーション性能は、リトレーニングベースの手法と競合するか、優れている。
論文 参考訳(メタデータ) (2025-10-19T10:21:01Z) - AMAS: Adaptively Determining Communication Topology for LLM-based Multi-Agent System [19.336020954831202]
大規模言語モデル (LLM) は自然言語処理能力に革命をもたらし、産業問題解決のための自律型マルチエージェントシステム (MAS) として実践的に実装されている。
我々は、新しい動的グラフデザイナを通じてLLMベースのMASを再定義するパラダイムシフトフレームワークであるAMASを紹介する。
AMASは個々の入力の固有の特性を利用して、タスク最適化エージェント経路を介してインテリジェントにクエリトラジェクトリをクエリする。
論文 参考訳(メタデータ) (2025-10-02T02:50:22Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Abstractive Visual Understanding of Multi-modal Structured Knowledge: A New Perspective for MLLM Evaluation [48.462734327375536]
MLLM(Multi-modal large language model)は、多種多様なシナリオやオブジェクトの包括的理解を可能にする。
MLLMの評価ベンチマークやリーダーボードの普及にもかかわらず、彼らはMLLMが視覚的に現れる構造化された抽象化で世界的知識を理解する上で重要な能力を見落としている。
構造化理解のためのマルチモーダルマップを基盤とした,革新的なベンチマークであるM3STRを提案する。
その結果,抽象的視覚情報を構造化知識で処理し,MLLMの総合的推論能力を向上させるための重要な軌道を図った。
論文 参考訳(メタデータ) (2025-06-02T04:00:35Z) - On Path to Multimodal Generalist: General-Level and General-Bench [153.9720740167528]
本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。
フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。
既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
論文 参考訳(メタデータ) (2025-05-07T17:59:32Z) - Keeping Yourself is Important in Downstream Tuning Multimodal Large Language Model [63.14883657299359]
MLLM(Multi-modal Large Language Models)は、視覚的および言語的推論を統合して、画像キャプションや視覚的質問応答といった複雑なタスクに対処する。
ダウンストリームタスクのためのMLLMのチューニングには,2つの重要な課題がある。タスク-Expert – 事前トレーニングとターゲットデータセット間の分散シフトによってターゲットのパフォーマンスが制限される。
論文 参考訳(メタデータ) (2025-03-06T15:29:13Z) - LFTR: Learning-Free Token Reduction for Multimodal Large Language Models [3.368594680297987]
MLLM(Multimodal Large Language Models)用に設計されたLFTR(Learning-free token reduction)手法を提案する。
視覚表現の冗長性に乗じて,MLLMの一般的な推論性能を維持しつつトークンを効果的に削減する。
その結果、LFTRは最大16倍の視覚トークンの削減を実現し、メインストリームの視覚質問応答ベンチマークの性能を維持したり、向上させることができた。
論文 参考訳(メタデータ) (2025-01-29T02:52:32Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - MoME: Mixture of Multimodal Experts for Generalist Multimodal Large Language Models [57.091523832149655]
本稿では,タスク干渉を緩和し,汎用MLLMを得るためのマルチモーダルエキスパート(MoME)の混合を提案する。
私たちのMoMEは、視覚専門家の混合(MoVE)と言語専門家の混合(MoLE)の2つの重要なコンポーネントで構成されています。
論文 参考訳(メタデータ) (2024-07-17T16:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。