論文の概要: Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding
- arxiv url: http://arxiv.org/abs/2504.10465v1
- Date: Mon, 14 Apr 2025 17:52:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:15.267841
- Title: Pixel-SAIL: Single Transformer For Pixel-Grounded Understanding
- Title(参考訳): Pixel-SAIL:Pixel-Grounded Understandingのためのシングルトランスフォーマー
- Authors: Tao Zhang, Xiangtai Li, Zilong Huang, Yanwei Li, Weixian Lei, Xueqing Deng, Shihao Chen, Shunping Ji, Jiashi Feng,
- Abstract要約: 画素ワイドMLLMタスクのための単一変換器であるPixel-SAILを提案する。
本稿では,視覚的プロンプト入力を単一変換器で理解するための新しい視覚的プロンプトインジェクション戦略を提案する。
また, 単一変圧器の微細な特徴抽出能力を効率的に向上するために, ビジョンエキスパート蒸留戦略を導入する。
- 参考スコア(独自算出の注目度): 65.11838260342586
- License:
- Abstract: Multimodal Large Language Models (MLLMs) achieve remarkable performance for fine-grained pixel-level understanding tasks. However, all the works rely heavily on extra components, such as vision encoder (CLIP), segmentation experts, leading to high system complexity and limiting model scaling. In this work, our goal is to explore a highly simplified MLLM without introducing extra components. Our work is motivated by the recent works on Single trAnsformer as a unified vIsion-Language Model (SAIL) design, where these works jointly learn vision tokens and text tokens in transformers. We present Pixel-SAIL, a single transformer for pixel-wise MLLM tasks. In particular, we present three technical improvements on the plain baseline. First, we design a learnable upsampling module to refine visual token features. Secondly, we propose a novel visual prompt injection strategy to enable the single transformer to understand visual prompt inputs and benefit from the early fusion of visual prompt embeddings and vision tokens. Thirdly, we introduce a vision expert distillation strategy to efficiently enhance the single transformer's fine-grained feature extraction capability. In addition, we have collected a comprehensive pixel understanding benchmark (PerBench), using a manual check. It includes three tasks: detailed object description, visual prompt-based question answering, and visual-text referring segmentation. Extensive experiments on four referring segmentation benchmarks, one visual prompt benchmark, and our PerBench show that our Pixel-SAIL achieves comparable or even better results with a much simpler pipeline. Code and model will be released at https://github.com/magic-research/Sa2VA.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は,微細なピクセルレベルの理解タスクにおいて,優れた性能を発揮する。
しかしながら、すべての作業は、ビジョンエンコーダ(CLIP)やセグメンテーションの専門家など、余分なコンポーネントに大きく依存しているため、システムの複雑さが高く、モデルのスケーリングが制限される。
本研究の目的は、追加のコンポーネントを導入することなく、高度に単純化されたMLLMを探索することである。
我々の研究は、Single trAnsformerを統一的なVIsion-Language Model (SAIL)設計として開発し、これらは変換器で視覚トークンとテキストトークンを共同で学習する。
画素ワイドMLLMタスクのための単一変換器であるPixel-SAILを提案する。
特に,ベースラインの改良点として,3つの技術的改善点を挙げる。
まず、視覚トークン機能を洗練するための学習可能なアップサンプリングモジュールを設計する。
次に,視覚的プロンプトインジェクション方式を提案し,視覚的プロンプトインジェクションと視覚的プロンプトを早期に融合させることで,視覚的プロンプトインジェクションの理解を可能にした。
第3に、単一変圧器の微細な特徴抽出能力を効率的に向上するビジョンエキスパート蒸留戦略を導入する。
さらに、手動チェックを用いて、包括的なピクセル理解ベンチマーク(PerBench)を収集した。
これには、詳細なオブジェクト記述、視覚的プロンプトに基づく質問応答、視覚的テキスト参照セグメンテーションの3つのタスクが含まれる。
4つの参照セグメンテーションベンチマーク、1つの視覚的プロンプトベンチマーク、そして私たちのPerBenchに関する大規模な実験は、Pixel-SAILが、はるかに単純なパイプラインで同等またはそれ以上の結果を達成することを示しています。
コードとモデルはhttps://github.com/magic-research/Sa2VAでリリースされる。
関連論文リスト
- PerspectiveNet: Multi-View Perception for Dynamic Scene Understanding [1.2781698000674653]
PerspectiveNetは、複数のカメラビューにわたる長い記述を生成するための軽量モデルである。
提案手法では,視覚エンコーダ,コンパクトコネクタモジュール,および大規模言語モデルを用いる。
結果として得られるモデルは軽量で、効率的なトレーニングと推論を確実にします。
論文 参考訳(メタデータ) (2024-10-22T08:57:17Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Osprey: Pixel Understanding with Visual Instruction Tuning [15.094943732551018]
Ospreyは、細かいマスク領域を言語命令に組み込むことでMLLMを拡張するマスクテキスト命令チューニング手法である。
この目的を達成するために、まず724Kサンプルを用いてマスクベースの領域テキストデータセットをキュレートし、次いでLLMにピクセルレベルの表現を注入して視覚言語モデルを設計する。
具体的には、Ospreyは、畳み込みCLIPバックボーンを視覚エンコーダとして採用し、高解像度入力から正確な視覚マスク特徴を抽出するためにマスク対応視覚抽出器を使用している。
論文 参考訳(メタデータ) (2023-12-15T18:58:11Z) - PixelLM: Pixel Reasoning with Large Multimodal Model [110.500792765109]
PixelLMはピクセルレベルの推論と理解のための効率的かつ効率的なLMMである。
コードブックトークンの隠された埋め込みからマスクを生成し、詳細なターゲット関連情報をエンコードする。
PixelLMは、さまざまなピクセルレベルの画像推論と理解タスクを網羅し、複数のベンチマークで確立されたメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-12-04T03:05:59Z) - Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。
また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:01:40Z) - Long-Range Grouping Transformer for Multi-View 3D Reconstruction [9.2709012704338]
配当原理に基づくLGA(Long-range Grouping attention)を提案する。
ビュー間特徴を接続する効率的かつ効率的なエンコーダを確立することができる。
プログレッシブ・アップサンプリング・デコーダは比較的高解像度のボクセル生成のために設計された。
論文 参考訳(メタデータ) (2023-08-17T01:34:59Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。