論文の概要: Aquila-plus: Prompt-Driven Visual-Language Models for Pixel-Level Remote Sensing Image Understanding
- arxiv url: http://arxiv.org/abs/2411.06142v1
- Date: Sat, 09 Nov 2024 10:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:11:50.572025
- Title: Aquila-plus: Prompt-Driven Visual-Language Models for Pixel-Level Remote Sensing Image Understanding
- Title(参考訳): Aquila-plus:Pixel-Levelリモートセンシング画像理解のためのプロンプト駆動型ビジュアルランゲージモデル
- Authors: Kaixuan Lu,
- Abstract要約: 画素レベルの視覚的理解を実現するために,Aquila-plusと呼ばれるマスク・テキスト・インストラクション・チューニング手法を提案する。
Aquila-plusは、畳み込みCLIPをビジュアルエンコーダとして使用し、マスク対応の視覚抽出器を使用して、正確な視覚マスクの特徴を抽出する。
実験の結果、Aquila-plusは様々な領域理解タスクにおいて既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The recent development of vision language models (VLMs) has led to significant advances in visual-language integration through visual instruction tuning, and they have rapidly evolved in the field of remote sensing image understanding, demonstrating their powerful capabilities. However, existing RSVLMs mainly focus on image-level or frame-level understanding, making it difficult to achieve fine-grained pixel-level visual-language alignment. Additionally, the lack of mask-based instructional data limits their further development. In this paper, we propose a mask-text instruction tuning method called Aquila-plus, which extends the capabilities of RSVLMs to achieve pixel-level visual understanding by incorporating fine-grained mask regions into language instructions. To achieve this, we first meticulously constructed a mask region-text dataset containing 100K samples, and then designed a visual-language model by injecting pixel-level representations into a large language model (LLM). Specifically, Aquila-plus uses a convolutional CLIP as the visual encoder and employs a mask-aware visual extractor to extract precise visual mask features from high-resolution inputs. Experimental results demonstrate that Aquila-plus outperforms existing methods in various region understanding tasks, showcasing its novel capabilities in pixel-level instruction tuning.
- Abstract(参考訳): 近年の視覚言語モデル (VLM) の発展により、視覚的インストラクションチューニングによる視覚言語統合が大幅に進歩し、リモートセンシング画像理解の分野で急速に発展し、その強力な能力を実証している。
しかし、既存のRSVLMは主に画像レベルの理解やフレームレベルの理解に重点を置いており、微細なピクセルレベルの視覚言語アライメントを実現することは困難である。
さらに、マスクベースの指導データがないことで、さらなる発展が制限される。
本稿では,細粒度マスマスキング領域を言語命令に組み込んで画素レベルの視覚的理解を実現するために,RSVLMの能力を拡張したAquila-plusというマスクテキストチューニング手法を提案する。
そこで我々はまず,100Kサンプルを含むマスク領域テキストデータセットを精巧に構築し,その上で,大規模言語モデル(LLM)に画素レベルの表現を注入して視覚言語モデルを設計した。
具体的には、Aquila-plusは畳み込みCLIPをビジュアルエンコーダとして使用し、マスク対応視覚抽出器を使用して高解像度入力から正確な視覚マスク特徴を抽出する。
実験の結果、Aquila-plusは様々な領域理解タスクにおいて既存の手法よりも優れており、画素レベルの命令チューニングにおける新しい能力を示している。
関連論文リスト
- ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - OMG-LLaVA: Bridging Image-level, Object-level, Pixel-level Reasoning and Understanding [112.87441334765693]
OMG-LLaVAは、強力なピクセルレベルの視覚理解と推論能力を組み合わせた新しいフレームワークである。
フレキシブルなユーザインタラクションのために、さまざまな視覚的およびテキストプロンプトを受け入れることができる。
OMG-LLaVAは1つのモデルで画像レベル、オブジェクトレベル、ピクセルレベルの推論と理解を実現する。
論文 参考訳(メタデータ) (2024-06-27T17:59:01Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Osprey: Pixel Understanding with Visual Instruction Tuning [15.094943732551018]
Ospreyは、細かいマスク領域を言語命令に組み込むことでMLLMを拡張するマスクテキスト命令チューニング手法である。
この目的を達成するために、まず724Kサンプルを用いてマスクベースの領域テキストデータセットをキュレートし、次いでLLMにピクセルレベルの表現を注入して視覚言語モデルを設計する。
具体的には、Ospreyは、畳み込みCLIPバックボーンを視覚エンコーダとして採用し、高解像度入力から正確な視覚マスク特徴を抽出するためにマスク対応視覚抽出器を使用している。
論文 参考訳(メタデータ) (2023-12-15T18:58:11Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z) - Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal
Transformers [46.275416873403614]
我々はPixel-BERTを提案し,画像画素とテキストとの整合性を深層マルチモーダル変換器で学習し,視覚と言語の埋め込みを共同で学習する。
私たちのアプローチでは、VQA(Visual Question Answering)、画像テキスト検索、Natural Language for Visual Reasoning for Real(NLVR)など、下流タスクの最先端技術を実現しています。
論文 参考訳(メタデータ) (2020-04-02T07:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。