論文の概要: Advancing Visual Large Language Model for Multi-granular Versatile Perception
- arxiv url: http://arxiv.org/abs/2507.16213v1
- Date: Tue, 22 Jul 2025 04:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.957619
- Title: Advancing Visual Large Language Model for Multi-granular Versatile Perception
- Title(参考訳): 多粒性Versatile知覚のための視覚的大言語モデルの改良
- Authors: Wentao Xiang, Haoxian Tan, Cong Wei, Yujie Zhong, Dengjie Li, Yujiu Yang,
- Abstract要約: Visual Large Language Model を取り入れた多言語・多言語知覚フレームワーク MVP-LM を提案する。
我々のフレームワークは、ボックスとマスクの予測とともに、単語ベースと文ベースの両方の知覚タスクを統合するように設計されている。
MVP-LMは、CoTにインスパイアされたデータセット統一戦略と合わせて、革新的なマルチグラニュラリティデコーダを備えている。
- 参考スコア(独自算出の注目度): 31.78788398688894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perception is a fundamental task in the field of computer vision, encompassing a diverse set of subtasks that can be systematically categorized into four distinct groups based on two dimensions: prediction type and instruction type. Notably, existing researches often focus solely on a limited subset of these potential combinations, which constrains their applicability and versatility across various contexts. In response to this challenge, we present MVP-LM, a Multi-granular and Versatile Perception framework incorporating Visual Large Language Model. Our framework is designed to integrate both word-based and sentence-based perception tasks alongside box and mask predictions within a single architecture. MVP-LM features an innovative multi-granularity decoder in conjunction with a CoT-inspired dataset unification strategy, enabling seamless supervised fine-tuning across a wide spectrum of tasks, including but not limited to panoptic segmentation, detection, grounding, and referring expression segmentation. Furthermore, we introduce a query enhancement strategy aimed at harnessing the decoding and generative capabilities inherent in VLLMs. Extensive experiments conducted across a range of benchmarks in both word-based and sentence-based perception tasks substantiate the efficacy of our framework. The code will be available at https://github.com/xiangwentao666/MVP-LM.
- Abstract(参考訳): 知覚はコンピュータビジョンの分野における基本的なタスクであり、予測型と命令型という2つの次元に基づいて、体系的に4つの異なるグループに分類できる様々なサブタスクを含んでいる。
特に、既存の研究は、これらの潜在的な組み合わせの限られたサブセットにのみ焦点を合わせ、様々な文脈における適用性と汎用性を制限している。
この課題に対応するために、私たちは、Visual Large Language Modelを組み込んだ多言語および多言語対応の知覚フレームワークであるMVP-LMを紹介します。
本フレームワークは,単語ベースと文ベースの両方の知覚タスクを,ボックスとマスクの予測とともに単一のアーキテクチャに統合するように設計されている。
MVP-LMは、CoTにインスパイアされたデータセット統一戦略と合わせて、革新的なマルチグラニュラリティデコーダを備えている。
さらに,VLLMに固有のデコードと生成機能を活用するためのクエリ拡張戦略を導入する。
単語ベースおよび文ベースの知覚タスクにおいて,多種多様なベンチマーク実験を行い,本フレームワークの有効性を実証した。
コードはhttps://github.com/xiangwentao666/MVP-LMで入手できる。
関連論文リスト
- A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
マルチモーダル大言語モデル(MLLM)は、視覚のきめ細やかな理解に苦しむ。
近年の研究では、ツールの使用や視覚的なタスクを自動回帰フレームワークに統一する手法が開発されており、多くの場合、全体的なマルチモーダルパフォーマンスを犠牲にしている。
本稿では,典型的な視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法であるタスク選好最適化(TPO)を提案する。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for
Multi-modal Large Language Models [86.478087039015]
モデル重み、チューニングタスク、視覚埋め込みを併用した多目的多モード大言語モデル(MLLM)を提案する。
提案したジョイントミキシングに基づいて,高解像度画像のきめ細かい外観をより正確に捉えるための効率的な手法を提案する。
今後のMLLM研究におけるジョイントミキシングの探求に光を当てることを願っている。
論文 参考訳(メタデータ) (2023-11-13T18:59:47Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - On the Performance of Multimodal Language Models [4.677125897916577]
本研究は、異なるマルチモーダル命令チューニングアプローチの比較分析を行う。
大規模言語モデルにマルチモーダル機能を組み込む際に,アーキテクチャ選択を導く上で重要な洞察を明らかにする。
論文 参考訳(メタデータ) (2023-10-04T23:33:36Z) - KD-VLP: Improving End-to-End Vision-and-Language Pretraining with Object
Knowledge Distillation [42.01427946204401]
自己教師付きビジョン・アンド・ランゲージ事前学習は,大規模な画像テキストデータから伝達可能なマルチモーダル表現を学習することを目的としている。
本稿では,CNN から Transformer へのイメージグリッド機能を直接供給し,マルチモーダル表現を協調的に学習するオブジェクト認識型エンドツーエンド QF フレームワークを提案する。
そこで我々は,オブジェクトの特徴とその意味的ラベルを外部検知器から監視することで,2つの新しいプリテキストタスクを設計する。
論文 参考訳(メタデータ) (2021-09-22T03:38:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。