論文の概要: LISAT: Language-Instructed Segmentation Assistant for Satellite Imagery
- arxiv url: http://arxiv.org/abs/2505.02829v1
- Date: Mon, 05 May 2025 17:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.763796
- Title: LISAT: Language-Instructed Segmentation Assistant for Satellite Imagery
- Title(参考訳): LISAT:衛星画像のための言語指示セグメンテーションアシスタント
- Authors: Jerome Quenum, Wen-Han Hsieh, Tsung-Han Wu, Ritwik Gupta, Trevor Darrell, David M. Chan,
- Abstract要約: 複雑なリモートセンシングシーンを記述した視覚言語モデルであるLISAtを紹介する。
我々は、9,205枚の画像に27,615個のアノテーションを付加した新しいジオ空間推論・セグメンテーションデータセット、GRESでLISAtをトレーニングした。
LISAtは、セグメンテーションタスクを143.36%(gIoU)の精度で、最先端のオープンドメインモデルより優れている
- 参考スコア(独自算出の注目度): 45.87124064438554
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Segmentation models can recognize a pre-defined set of objects in images. However, models that can reason over complex user queries that implicitly refer to multiple objects of interest are still in their infancy. Recent advances in reasoning segmentation--generating segmentation masks from complex, implicit query text--demonstrate that vision-language models can operate across an open domain and produce reasonable outputs. However, our experiments show that such models struggle with complex remote-sensing imagery. In this work, we introduce LISAt, a vision-language model designed to describe complex remote-sensing scenes, answer questions about them, and segment objects of interest. We trained LISAt on a new curated geospatial reasoning-segmentation dataset, GRES, with 27,615 annotations over 9,205 images, and a multimodal pretraining dataset, PreGRES, containing over 1 million question-answer pairs. LISAt outperforms existing geospatial foundation models such as RS-GPT4V by over 10.04 % (BLEU-4) on remote-sensing description tasks, and surpasses state-of-the-art open-domain models on reasoning segmentation tasks by 143.36 % (gIoU). Our model, datasets, and code are available at https://lisat-bair.github.io/LISAt/
- Abstract(参考訳): セグメンテーションモデルは、画像内の事前定義されたオブジェクトの集合を認識することができる。
しかし、複数の関心対象を暗黙的に参照する複雑なユーザクエリを推論できるモデルは、まだ初期段階にある。
複雑な暗黙的な問合せテキストからセグメンテーションを生成するセグメンテーションマスクを推論する最近の進歩は、視覚言語モデルがオープンドメインをまたいで動作し、合理的な出力を生成することを実証している。
しかし,実験の結果,このようなモデルでは複雑なリモートセンシング画像に苦しむことが明らかとなった。
本研究では,複雑なリモートセンシングシーンを記述した視覚言語モデルであるLISAtを紹介する。
我々は、9,205枚以上の画像に27,615のアノテーションと100万以上の質問応答対を含むマルチモーダル事前学習データセットであるPreGRESを用いて、新しいジオ空間推論-セグメンテーションデータセット、GRESでLISAtをトレーニングした。
LISAtはリモートセンシング記述タスクにおいて、RS-GPT4Vのような既存の地理空間基盤モデルよりも10.04 %(BLEU-4)優れており、セグメンテーションタスクの推論における最先端のオープンドメインモデルよりも143.36 %(gIoU)高い。
私たちのモデル、データセット、コードはhttps://lisat-bair.github.io/LISAt/で利用可能です。
関連論文リスト
- ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
ViLLaは、複数のコアイノベーションを通じて、これらの課題に対処しています。
長ビデオの効率的な処理を可能にするために、Villaは(3)長ビデオを短いが意味的に密度の高いセグメントに適応的に分割し、冗長性を低下させるキーセグメントサンプリングを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。