論文の概要: Osprey: Pixel Understanding with Visual Instruction Tuning
- arxiv url: http://arxiv.org/abs/2312.10032v3
- Date: Thu, 14 Mar 2024 15:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-16 01:52:29.050658
- Title: Osprey: Pixel Understanding with Visual Instruction Tuning
- Title(参考訳): Osprey: ビジュアルインストラクションチューニングによるPixel理解
- Authors: Yuqian Yuan, Wentong Li, Jian Liu, Dongqi Tang, Xinjie Luo, Chi Qin, Lei Zhang, Jianke Zhu,
- Abstract要約: Ospreyは、細かいマスク領域を言語命令に組み込むことでMLLMを拡張するマスクテキスト命令チューニング手法である。
この目的を達成するために、まず724Kサンプルを用いてマスクベースの領域テキストデータセットをキュレートし、次いでLLMにピクセルレベルの表現を注入して視覚言語モデルを設計する。
具体的には、Ospreyは、畳み込みCLIPバックボーンを視覚エンコーダとして採用し、高解像度入力から正確な視覚マスク特徴を抽出するためにマスク対応視覚抽出器を使用している。
- 参考スコア(独自算出の注目度): 15.094943732551018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have recently achieved impressive general-purpose vision-language capabilities through visual instruction tuning. However, current MLLMs primarily focus on image-level or box-level understanding, falling short in achieving fine-grained vision-language alignment at pixel level. Besides, the lack of mask-based instruction data limits their advancements. In this paper, we propose Osprey, a mask-text instruction tuning approach, to extend MLLMs by incorporating fine-grained mask regions into language instruction, aiming at achieving pixel-wise visual understanding. To achieve this goal, we first meticulously curate a mask-based region-text dataset with 724K samples, and then design a vision-language model by injecting pixel-level representation into LLM. Specifically, Osprey adopts a convolutional CLIP backbone as the vision encoder and employs a mask-aware visual extractor to extract precise visual mask features from high resolution input. Experimental results demonstrate Osprey's superiority in various region understanding tasks, showcasing its new capability for pixel-level instruction tuning. In particular, Osprey can be integrated with Segment Anything Model (SAM) seamlessly to obtain multi-granularity semantics. The source code, dataset and demo can be found at https://github.com/CircleRadon/Osprey.
- Abstract(参考訳): MLLM(Multimodal large language model)は近年,視覚的インストラクションチューニングにより,汎用的な視覚言語機能を実現している。
しかし、現在のMLLMは主に画像レベルの理解やボックスレベルの理解に重点を置いており、ピクセルレベルでの微細な視覚言語アライメントの実現には不足している。
さらに、マスクベースの命令データがないため、その進歩は制限される。
本稿では,大きめのマスク領域を言語指導に組み込むことでMLLMを拡張し,画素単位の視覚的理解を実現するためのマスクテキスト指導チューニング手法であるOspreyを提案する。
この目的を達成するため、まず724Kサンプルを用いてマスクベースの領域テキストデータセットを精巧にキュレートし、次いでLLMにピクセルレベルの表現を注入して視覚言語モデルを設計する。
具体的には、Ospreyは、畳み込みCLIPバックボーンを視覚エンコーダとして採用し、高解像度入力から正確な視覚マスク特徴を抽出するためにマスク対応視覚抽出器を使用している。
実験により,Ospreyの様々な領域理解タスクにおける優位性を示し,画素レベルの命令チューニングの新たな能力を示した。
特に、OspreyはSegment Anything Model(SAM)とシームレスに統合して、多粒度セマンティクスを得ることができる。
ソースコード、データセット、デモはhttps://github.com/CircleRadon/Osprey.comにある。
関連論文リスト
- GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing [22.729750410621826]
GeoPixは、画像理解機能をピクセルレベルまで拡張するRS MLLMである。
RS画像におけるマルチスケールオブジェクトのセグメンテーションを容易にするため、クラスワイズ学習可能なメモリモジュールをマスク予測器に統合する。
画素レベルの RS MLLM をトレーニングするための大規模データセットの欠如に対処するため,GeoPixInstruct データセットを構築した。
論文 参考訳(メタデータ) (2025-01-12T14:45:27Z) - Aquila-plus: Prompt-Driven Visual-Language Models for Pixel-Level Remote Sensing Image Understanding [0.0]
画素レベルの視覚的理解を実現するために,Aquila-plusと呼ばれるマスク・テキスト・インストラクション・チューニング手法を提案する。
Aquila-plusは、畳み込みCLIPをビジュアルエンコーダとして使用し、マスク対応の視覚抽出器を使用して、正確な視覚マスクの特徴を抽出する。
実験の結果、Aquila-plusは様々な領域理解タスクにおいて既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-09T10:42:57Z) - Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels [53.8817160001038]
画素レベルの理解にCLIP画像エンコーダを適用する新しい手法であるPixelCLIPを提案する。
セマンティックラベルを使わずにマスクを活用するという課題に対処するため,オンラインクラスタリングアルゴリズムを考案した。
PixelCLIPはCLIPよりも大幅にパフォーマンスが向上し、キャプション管理手法に比べて競合性が向上した。
論文 参考訳(メタデータ) (2024-09-30T01:13:03Z) - TokenPacker: Efficient Visual Projector for Multimodal LLM [37.1071749188282]
ビジュアルプロジェクタは、ビジュアルエンコーダとLarge Language Model(LLM)の間に必須のブリッジとして機能する。
本稿では,密集した特徴を注入して凝縮した視覚トークンを生成するために,粗く細かなスキームを取り入れた新しいビジュアルプロジェクタを提案する。
我々のアプローチでは、ビジュアルトークンを75%89%圧縮し、多様なベンチマークで同等またはさらに優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-02T16:10:55Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - ClawMachine: Learning to Fetch Visual Tokens for Referential Comprehension [71.03445074045092]
我々はClawMachineを提案し、視覚トークンのグループのトークン集合を用いて各エンティティに明示的に通知する新しい方法論を提案する。
追加構文を用いることなく視覚的参照タスクのプロンプトと応答を統一する手法を提案する。
ClawMachineは、高い効率でシーンレベルおよび参照理解タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-06-17T08:39:16Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for
Referring Image Segmentation [104.5033800500497]
画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。
以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。
単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
論文 参考訳(メタデータ) (2022-12-04T08:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。