論文の概要: LISA: Reasoning Segmentation via Large Language Model
- arxiv url: http://arxiv.org/abs/2308.00692v2
- Date: Thu, 3 Aug 2023 17:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 11:18:54.013215
- Title: LISA: Reasoning Segmentation via Large Language Model
- Title(参考訳): LISA:大規模言語モデルによるセグメンテーションの推論
- Authors: Xin Lai, Zhuotao Tian, Yukang Chen, Yanwei Li, Yuhui Yuan, Shu Liu,
Jiaya Jia
- Abstract要約: そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
我々は,1000以上の画像命令ペアからなるベンチマークを構築した。
LISA: large Language Instructed Assistantについて紹介する。
- 参考スコア(独自算出の注目度): 60.02788530436362
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Although perception systems have made remarkable advancements in recent
years, they still rely on explicit human instruction to identify the target
objects or categories before executing visual recognition tasks. Such systems
lack the ability to actively reason and comprehend implicit user intentions. In
this work, we propose a new segmentation task -- reasoning segmentation. The
task is designed to output a segmentation mask given a complex and implicit
query text. Furthermore, we establish a benchmark comprising over one thousand
image-instruction pairs, incorporating intricate reasoning and world knowledge
for evaluation purposes. Finally, we present LISA: large Language Instructed
Segmentation Assistant, which inherits the language generation capabilities of
the multi-modal Large Language Model (LLM) while also possessing the ability to
produce segmentation masks. We expand the original vocabulary with a <SEG>
token and propose the embedding-as-mask paradigm to unlock the segmentation
capability. Remarkably, LISA can handle cases involving: 1) complex reasoning;
2) world knowledge; 3) explanatory answers; 4) multi-turn conversation. Also,
it demonstrates robust zero-shot capability when trained exclusively on
reasoning-free datasets. In addition, fine-tuning the model with merely 239
reasoning segmentation image-instruction pairs results in further performance
enhancement. Experiments show our method not only unlocks new reasoning
segmentation capabilities but also proves effective in both complex reasoning
segmentation and standard referring segmentation tasks. Code, models, and demo
are at https://github.com/dvlab-research/LISA.
- Abstract(参考訳): 近年、知覚システムは目覚ましい進歩を遂げているが、視覚認識タスクを実行する前には、対象物やカテゴリを明示的な人間の指示に頼っている。
このようなシステムには、暗黙のユーザの意図を積極的に推論し理解する能力がない。
本研究では,新たなセグメンテーションタスク,すなわちセグメンテーションの推論を提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
さらに,評価のために複雑な推論と世界知識を取り入れた,1000以上のイメージインストラクションペアからなるベンチマークを構築した。
最後に,llm(multi-modal large language model)の言語生成機能を継承すると同時に,セグメンテーションマスクを生成する能力も備えた,大規模言語指示セグメンテーションアシスタントであるlisaを提案する。
従来の語彙をSEGトークンで拡張し,セグメンテーション機能を開放するための埋め込み・マスクパラダイムを提案する。
興味深いことに、LISAは次のようなケースを扱うことができる。
1) 複雑な推論
2) 世界の知識
3) 説明的回答
4)マルチターン会話。
また、推論不要データセットのみをトレーニングした場合、ロバストなゼロショット能力を示す。
さらに、モデルを239個の推論セグメンテーションイメージインストラクションペアで微調整することで、さらにパフォーマンスが向上する。
提案手法は,新しい推論セグメンテーション機能を解き放つだけでなく,複雑な推論セグメンテーションと標準参照セグメンテーションタスクの両方において有効であることを示す。
コード、モデル、デモはhttps://github.com/dvlab-research/LISAにある。
関連論文リスト
- ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - LLM-Seg: Bridging Image Segmentation and Large Language Model Reasoning [8.379286663107845]
セグメンテーション(Reasoning segmentation)は、セグメンテーションシステムが暗黙のユーザ意図を推論し解釈することを可能にする新しいタスクである。
推論セグメンテーションに関する研究は、方法論設計とデータセットラベリングの両方に寄与する。
論文 参考訳(メタデータ) (2024-04-12T18:45:51Z) - LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。
本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。
本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:40:45Z) - DeiSAM: Segment Anything with Deictic Prompting [27.960890657540443]
DeiSAMは、大きなトレーニング済みニューラルネットワークと微分可能な論理推論器の組み合わせである。
オブジェクトを論理的に推論された画像領域にマッチングすることで、オブジェクトをセグメント化する。
実験の結果,DeiSAMは純粋にデータ駆動ベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-02-21T20:43:49Z) - LISA++: An Improved Baseline for Reasoning Segmentation with Large
Language Model [54.850048630298495]
既存のLISAモデルの更新であるLISA++を導入し、基本アーキテクチャをそのまま維持しながらコア機能の改善に重点を置いている。
インスタンスセグメンテーション機能が追加され、既存のマルチリージョンセグメンテーションとともに、より詳細なシーン分析が提供される。
これらの改善は、構造的変化やデータソースを追加することなく、セグメンテーションと会話スキルを強化することを目的とした、ジェネリックセグメンテーションデータセットの既存のサンプルをキュレートすることで達成される。
論文 参考訳(メタデータ) (2023-12-28T18:58:33Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。