論文の概要: LISA++: An Improved Baseline for Reasoning Segmentation with Large
Language Model
- arxiv url: http://arxiv.org/abs/2312.17240v3
- Date: Mon, 22 Jan 2024 06:53:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 19:44:00.581059
- Title: LISA++: An Improved Baseline for Reasoning Segmentation with Large
Language Model
- Title(参考訳): lisa++: 大きな言語モデルによる推論セグメンテーションのためのベースラインの改善
- Authors: Senqiao Yang and Tianyuan Qu and Xin Lai and Zhuotao Tian and Bohao
Peng and Shu Liu and Jiaya Jia
- Abstract要約: 既存のLISAモデルの更新であるLISA++を導入し、基本アーキテクチャをそのまま維持しながらコア機能の改善に重点を置いている。
インスタンスセグメンテーション機能が追加され、既存のマルチリージョンセグメンテーションとともに、より詳細なシーン分析が提供される。
これらの改善は、構造的変化やデータソースを追加することなく、セグメンテーションと会話スキルを強化することを目的とした、ジェネリックセグメンテーションデータセットの既存のサンプルをキュレートすることで達成される。
- 参考スコア(独自算出の注目度): 54.850048630298495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While LISA effectively bridges the gap between segmentation and large
language models to enable reasoning segmentation, it poses certain limitations:
unable to distinguish different instances of the target region, and constrained
by the pre-defined textual response formats. In this work, we introduce LISA++,
an update to the existing LISA model, focusing on improving core
functionalities while keeping the base architecture intact. The main
enhancements in LISA++ include: \textbf{1) Enhanced Segmentation}: The instance
segmentation ability has been added, providing a more detailed scene analysis
along with the existing multi-region semantic segmentation. \textbf{2) More
Natural Conversation}: Improved capability for multi-turn dialogue, with the
ability to incorporate segmentation results directly into text responses, i.e.,
Segmentation in Dialogue (SiD). These improvements are achieved by curating the
existing samples of generic segmentation datasets, aimed specifically at
enhancing the segmentation and conversational skills without structural change
and additional data sources. Comparative analysis with the original LISA model
shows significant advancements in these areas, positioning LISA++ as a notable
upgrade in visual understanding and interaction. LISA++'s adaptability and
improved features highlight the versatility of the mask-as-embedding paradigm
proposed by LISA, and the potential as a foundational model for diverse
applications.
- Abstract(参考訳): lisaは、セグメンテーションと大きな言語モデルの間のギャップを効果的に橋渡しして、推論セグメンテーションを可能にするが、ターゲット領域の異なるインスタンスを区別できず、事前定義されたテキスト応答フォーマットによって制約されるという、いくつかの制限がある。
本稿では,既存のLISAモデルの更新であるLISA++を紹介する。
LISA++の主な機能拡張は以下のとおりである。 \textbf{1) Enhanced Segmentation}: インスタンスセグメンテーション機能が追加され、既存のマルチリージョンセグメンテーションとともに、より詳細なシーン分析が提供される。
\textbf{2) More Natural Conversation}: セグメンテーション結果を直接テキスト応答に組み込む機能、すなわちSegmentation in Dialogue (SiD)。
これらの改善は、構造的な変更やデータソースを追加せずにセグメンテーションと会話スキルを強化することを目的とした、ジェネリックセグメンテーションデータセットの既存のサンプルをキュレートすることで達成される。
元のLISAモデルとの比較分析は、これらの領域において大きな進歩を示し、LISA++を視覚的理解と相互作用の顕著なアップグレードとして位置づけている。
LISA++の適応性と改良された機能は、LISAが提案したマスク・アズ・エンベッド・パラダイムの汎用性と、多様なアプリケーションの基盤モデルとしての可能性を強調している。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Syntax-Informed Interactive Model for Comprehensive Aspect-Based
Sentiment Analysis [0.0]
総合ABSAのためのシンタクティック・依存性強化マルチタスクインタラクション・アーキテクチャ(SDEMTIA)を提案する。
我々のアプローチは、SDEIN(Syntactic Dependency Embedded Interactive Network)を用いた構文知識(依存関係と型)を革新的に活用する。
また,学習効率を高めるために,マルチタスク学習フレームワークに,新規で効率的なメッセージパッシング機構を組み込んだ。
論文 参考訳(メタデータ) (2023-11-28T16:03:22Z) - Explore-Instruct: Enhancing Domain-Specific Instruction Coverage through
Active Exploration [64.58185031596169]
Explore-Instructは、ドメイン固有の命令チューニングで使用されるデータカバレッジを強化する新しいアプローチである。
データ中心分析は、ドメイン固有の命令カバレッジを改善するために提案手法の有効性を検証する。
我々の発見は、特にドメイン固有の文脈において、命令カバレッジを改善するための有望な機会を提供する。
論文 参考訳(メタデータ) (2023-10-13T15:03:15Z) - LISA: Reasoning Segmentation via Large Language Model [60.02788530436362]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
我々は,1000以上の画像命令ペアからなるベンチマークを構築した。
LISA: large Language Instructed Assistantについて紹介する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Semantically Enhanced Global Reasoning for Semantic Segmentation [37.64601713565947]
画像特徴を潜在領域表現に投影し,グローバルな推論を行うことを学ぶ。
結果として生じる意味的グローバル推論(SGR)は、エンドツーエンドのトレーニングが可能で、任意の意味的セグメンテーションフレームワークと組み合わせることができる。
オブジェクトクラスとインスタンスレベルの両方で表現の意味を計測できる新しいメトリクスを提案する。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。