論文の概要: LISA: Reasoning Segmentation via Large Language Model
- arxiv url: http://arxiv.org/abs/2308.00692v3
- Date: Wed, 1 May 2024 05:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 20:30:46.683161
- Title: LISA: Reasoning Segmentation via Large Language Model
- Title(参考訳): LISA: 大規模言語モデルによるセグメンテーションの推論
- Authors: Xin Lai, Zhuotao Tian, Yukang Chen, Yanwei Li, Yuhui Yuan, Shu Liu, Jiaya Jia,
- Abstract要約: そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
- 参考スコア(独自算出の注目度): 68.24075852136761
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although perception systems have made remarkable advancements in recent years, they still rely on explicit human instruction or pre-defined categories to identify the target objects before executing visual recognition tasks. Such systems cannot actively reason and comprehend implicit user intention. In this work, we propose a new segmentation task -- reasoning segmentation. The task is designed to output a segmentation mask given a complex and implicit query text. Furthermore, we establish a benchmark comprising over one thousand image-instruction-mask data samples, incorporating intricate reasoning and world knowledge for evaluation purposes. Finally, we present LISA: large Language Instructed Segmentation Assistant, which inherits the language generation capabilities of multimodal Large Language Models (LLMs) while also possessing the ability to produce segmentation masks. We expand the original vocabulary with a <SEG> token and propose the embedding-as-mask paradigm to unlock the segmentation capability. Remarkably, LISA can handle cases involving complex reasoning and world knowledge. Also, it demonstrates robust zero-shot capability when trained exclusively on reasoning-free datasets. In addition, fine-tuning the model with merely 239 reasoning segmentation data samples results in further performance enhancement. Both quantitative and qualitative experiments show our method effectively unlocks new reasoning segmentation capabilities for multimodal LLMs. Code, models, and data are available at https://github.com/dvlab-research/LISA.
- Abstract(参考訳): 近年、認識システムは目覚ましい進歩を遂げているが、視覚認識タスクを実行する前に、対象物を特定するための明示的な人間の指示や事前定義されたカテゴリーに依存している。
このようなシステムは、暗黙のユーザー意図を積極的に推論し理解することはできない。
本研究では,新たなセグメンテーションタスク,すなわちセグメンテーションの推論を提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
さらに,1000以上のイメージインストラクション・マスクデータサンプルからなるベンチマークを構築し,複雑な推論と世界知識を応用して評価を行う。
最後に、LISA: Large Language Instructed Segmentation Assistantを提示する。これは、多モーダル大言語モデル(LLM)の言語生成能力を継承すると同時に、セグメンテーションマスクを生成する能力も備えている。
従来の語彙をSEGトークンで拡張し,セグメンテーション機能を解き放つための埋め込み・マスクパラダイムを提案する。
興味深いことに、LISAは複雑な推論と世界知識を含むケースを扱うことができる。
また、推論不要のデータセットのみにトレーニングされた場合、堅牢なゼロショット機能を示す。
さらに,239個のセグメンテーションデータサンプルだけでモデルを微調整することで,さらなる性能向上が期待できる。
定量的および定性的な実験により,本手法はマルチモーダルLLMの新しい推論セグメンテーション機能を効果的に解き放つことを示す。
コード、モデル、データはhttps://github.com/dvlab-research/LISAで入手できる。
関連論文リスト
- ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning [8.379286663107845]
セグメンテーション(Reasoning segmentation)は、セグメンテーションシステムが暗黙のユーザ意図を推論し解釈することを可能にする新しいタスクである。
推論セグメンテーションに関する研究は、方法論設計とデータセットラベリングの両方に寄与する。
論文 参考訳(メタデータ) (2024-04-12T18:45:51Z) - LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。
本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。
本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:40:45Z) - DeiSAM: Segment Anything with Deictic Prompting [27.960890657540443]
DeiSAMは、大きなトレーニング済みニューラルネットワークと微分可能な論理推論器の組み合わせである。
オブジェクトを論理的に推論された画像領域にマッチングすることで、オブジェクトをセグメント化する。
実験の結果,DeiSAMは純粋にデータ駆動ベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-02-21T20:43:49Z) - LISA++: An Improved Baseline for Reasoning Segmentation with Large
Language Model [54.850048630298495]
既存のLISAモデルの更新であるLISA++を導入し、基本アーキテクチャをそのまま維持しながらコア機能の改善に重点を置いている。
インスタンスセグメンテーション機能が追加され、既存のマルチリージョンセグメンテーションとともに、より詳細なシーン分析が提供される。
これらの改善は、構造的変化やデータソースを追加することなく、セグメンテーションと会話スキルを強化することを目的とした、ジェネリックセグメンテーションデータセットの既存のサンプルをキュレートすることで達成される。
論文 参考訳(メタデータ) (2023-12-28T18:58:33Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。