論文の概要: REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding
- arxiv url: http://arxiv.org/abs/2503.07413v1
- Date: Mon, 10 Mar 2025 14:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:47:38.437134
- Title: REF-VLM: Triplet-Based Referring Paradigm for Unified Visual Decoding
- Title(参考訳): REF-VLM: 統一ビジュアルデコードのためのトリプルトベースの参照パラダイム
- Authors: Yan Tai, Luhao Zhu, Zhiqiang Chen, Ynan Ding, Yiying Dong, Xiaohong Liu, Guodong Guo,
- Abstract要約: REF-VLMは、様々な視覚的デコーディングタスクの統一的なトレーニングのためのエンドツーエンドフレームワークである。
1億以上のマルチモーダル対話サンプルを含む大規模マルチタスクデータセットを構築した。
REF-VLMは様々な標準ベンチマークで他のMLLMよりも優れている。
- 参考スコア(独自算出の注目度): 36.376220619032225
- License:
- Abstract: Multimodal Large Language Models (MLLMs) demonstrate robust zero-shot capabilities across diverse vision-language tasks after training on mega-scale datasets. However, dense prediction tasks, such as semantic segmentation and keypoint detection, pose significant challenges for MLLMs when represented solely as text outputs. Simultaneously, current MLLMs utilizing latent embeddings for visual task decoding generally demonstrate limited adaptability to both multi-task learning and multi-granularity scenarios. In this work, we present REF-VLM, an end-to-end framework for unified training of various visual decoding tasks. To address complex visual decoding scenarios, we introduce the Triplet-Based Referring Paradigm (TRP), which explicitly decouples three critical dimensions in visual decoding tasks through a triplet structure: concepts, decoding types, and targets. TRP employs symbolic delimiters to enforce structured representation learning, enhancing the parsability and interpretability of model outputs. Additionally, we construct Visual-Task Instruction Following Dataset (VTInstruct), a large-scale multi-task dataset containing over 100 million multimodal dialogue samples across 25 task types. Beyond text inputs and outputs, VT-Instruct incorporates various visual prompts such as point, box, scribble, and mask, and generates outputs composed of text and visual units like box, keypoint, depth and mask. The combination of different visual prompts and visual units generates a wide variety of task types, expanding the applicability of REF-VLM significantly. Both qualitative and quantitative experiments demonstrate that our REF-VLM outperforms other MLLMs across a variety of standard benchmarks. The code, dataset, and demo available at https://github.com/MacavityT/REF-VLM.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、大規模データセットのトレーニング後、多様な視覚言語タスクにまたがる堅牢なゼロショット機能を示す。
しかし、セマンティックセグメンテーションやキーポイント検出のような高密度な予測タスクは、テキスト出力としてのみ表現される場合、MLLMにとって大きな課題となる。
同時に、視覚タスクの復号化に潜伏埋め込みを用いた現在のMLLMは、一般にマルチタスク学習とマルチグラニュラリティシナリオの両方に限定的な適応性を示す。
本稿では,様々な視覚的復号化タスクの統一学習のためのエンドツーエンドフレームワークであるREF-VLMを提案する。
複雑な視覚的デコーディングシナリオに対処するために、三重項構造(概念、復号型、ターゲット)を通して視覚的デコーディングタスクの3つの重要な次元を明示的に分離するトリプルトベース参照パラダイム(TRP)を導入する。
TRPは、構造的表現学習を強制するためにシンボリックデリミッタを使用し、モデル出力のパーサビリティと解釈可能性を高める。
さらに,25種類のタスクに対して1億以上のマルチモーダル対話サンプルを含む大規模マルチタスクデータセットであるVisual-Task Instruction following Dataset (VTInstruct)を構築した。
テキスト入力や出力以外にも、VT-Instructはポイント、ボックス、スクリブル、マスクなどの様々な視覚的プロンプトを組み込んで、ボックス、キーポイント、ディープ、マスクなどのテキストおよび視覚的ユニットからなる出力を生成する。
異なる視覚的プロンプトと視覚的ユニットの組み合わせは多種多様なタスクタイプを生成し、REF-VLMの適用性を著しく拡張する。
定性的かつ定量的な実験は、我々のREF-VLMが様々な標準ベンチマークで他のMLLMよりも優れていることを示した。
コード、データセット、デモはhttps://github.com/MacavityT/REF-VLMで公開されている。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
タスク選好最適化(TPO)は、典型的なきめ細かい視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法である。
トレーニング中にリッチなビジュアルラベルを活用することで、TPOはMLLMのマルチモーダル能力とタスク固有のパフォーマンスを大幅に向上させる。
VideoChatとLLaVAによるこのアプローチのインスタンス化は、ベースラインモデルと比較して、総合的に14.6%のマルチモーダル性能の向上を示している。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - DTLLM-VLT: Diverse Text Generation for Visual Language Tracking Based on LLM [23.551036494221222]
Visual Language Tracking (VLT)は、指定されたオブジェクトの正確な追跡のために、ビデオから自然言語記述を統合することで、単一のオブジェクト追跡(SOT)を強化する。
ほとんどのVLTベンチマークは、単一の粒度で注釈付けされており、科学的ガイダンスを提供するための一貫性のあるセマンティックフレームワークが欠如している。
DTLLM-VLTは,環境の多様性を高めるために,多粒度テキストを自動的に生成する。
論文 参考訳(メタデータ) (2024-05-20T16:01:01Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。