論文の概要: Osprey: Pixel Understanding with Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2312.10032v2
- Date: Mon, 25 Dec 2023 14:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 20:44:04.460634
- Title: Osprey: Pixel Understanding with Visual Instruction Tuning
- Title(参考訳): Osprey: ビジュアルインストラクションチューニングによるPixel理解
- Authors: Yuqian Yuan, Wentong Li, Jian Liu, Dongqi Tang, Xinjie Luo, Chi Qin,
Lei Zhang, Jianke Zhu
- Abstract要約: Ospreyは、細かいマスク領域を言語命令に組み込むことでMLLMを拡張するマスクテキスト命令チューニング手法である。
この目的を達成するために、まず724Kサンプルを用いてマスクベースの領域テキストデータセットをキュレートし、次いでLLMにピクセルレベルの表現を注入して視覚言語モデルを設計する。
- 参考スコア(独自算出の注目度): 15.745086070999733
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have recently achieved impressive
general-purpose vision-language capabilities through visual instruction tuning.
However, current MLLMs primarily focus on image-level or box-level
understanding, falling short of achieving fine-grained vision-language
alignment at the pixel level. Besides, the lack of mask-based instruction data
limits their advancements. In this paper, we propose Osprey, a mask-text
instruction tuning approach, to extend MLLMs by incorporating fine-grained mask
regions into language instruction, aiming at achieving pixel-wise visual
understanding. To achieve this goal, we first meticulously curate a mask-based
region-text dataset with 724K samples, and then design a vision-language model
by injecting pixel-level representation into LLM. Especially, Osprey adopts a
convolutional CLIP backbone as the vision encoder and employs a mask-aware
visual extractor to extract precise visual mask features from high resolution
input. Experimental results demonstrate Osprey's superiority in various region
understanding tasks, showcasing its new capability for pixel-level instruction
tuning. In particular, Osprey can be integrated with Segment Anything Model
(SAM) seamlessly to obtain multi-granularity semantics. The source code,
dataset and demo can be found at https://github.com/CircleRadon/Osprey.
- Abstract(参考訳): MLLM(Multimodal large language model)は近年,視覚的インストラクションチューニングにより,汎用的な視覚言語機能を実現している。
しかし、現在のmllmは主に画像レベルやボックスレベルの理解に焦点を当てており、ピクセルレベルでの詳細な視覚言語アライメントの実現には至っていない。
さらに、マスクベースの命令データがないため、その進歩は制限される。
本稿では,大きめのマスク領域を言語指導に組み込むことでMLLMを拡張し,画素単位の視覚的理解を実現するためのマスクテキスト指導チューニング手法であるOspreyを提案する。
この目的を達成するため、まず724Kサンプルを用いてマスクベースの領域テキストデータセットを精巧にキュレートし、次いでLLMにピクセルレベルの表現を注入して視覚言語モデルを設計する。
特に、Ospreyは、畳み込みCLIPバックボーンを視覚エンコーダとして採用し、高解像度入力から正確な視覚マスク特徴を抽出するためにマスク対応視覚抽出器を使用している。
実験により,Ospreyの様々な領域理解タスクにおける優位性を示し,画素レベルの命令チューニングの新たな能力を示した。
特に、ospreyはsegment anything model (sam)とシームレスに統合でき、マルチグラニュラリティセマンティクスを得ることができる。
ソースコード、データセット、デモはhttps://github.com/CircleRadon/Ospreyで見ることができる。
関連論文リスト
- Aquila-plus: Prompt-Driven Visual-Language Models for Pixel-Level Remote Sensing Image Understanding [0.0]
画素レベルの視覚的理解を実現するために,Aquila-plusと呼ばれるマスク・テキスト・インストラクション・チューニング手法を提案する。
Aquila-plusは、畳み込みCLIPをビジュアルエンコーダとして使用し、マスク対応の視覚抽出器を使用して、正確な視覚マスクの特徴を抽出する。
実験の結果、Aquila-plusは様々な領域理解タスクにおいて既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-09T10:42:57Z) - Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - TokenPacker: Efficient Visual Projector for Multimodal LLM [37.1071749188282]
ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。
本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。
我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-02T16:10:55Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for
Referring Image Segmentation [104.5033800500497]
画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。
以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。
単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
論文 参考訳(メタデータ) (2022-12-04T08:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。