論文の概要: An Improved Baseline for Reasoning Segmentation with Large Language
Model
- arxiv url: http://arxiv.org/abs/2312.17240v1
- Date: Thu, 28 Dec 2023 18:58:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 14:32:53.230560
- Title: An Improved Baseline for Reasoning Segmentation with Large Language
Model
- Title(参考訳): 大規模言語モデルを用いたセグメンテーションのためのベースラインの改良
- Authors: Senqiao Yang and Tianyuan Qu and Xin Lai and Zhuotao Tian and Bohao
Peng and Shu Liu and Jiaya Jia
- Abstract要約: 既存のLISAモデルの更新であるLISA++を導入し、基本アーキテクチャをそのまま維持しながらコア機能の改善に重点を置いている。
インスタンスセグメンテーション機能が追加され、既存のマルチリージョンセグメンテーションとともに、より詳細なシーン分析が提供される。
これらの改善は、構造的変化やデータソースを追加することなく、セグメンテーションと会話スキルを強化することを目的とした、ジェネリックセグメンテーションデータセットの既存のサンプルをキュレートすることで達成される。
- 参考スコア(独自算出の注目度): 54.850048630298495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While LISA effectively bridges the gap between segmentation and large
language models to enable reasoning segmentation, it poses certain limitations:
unable to distinguish different instances of the target region, and constrained
by the pre-defined textual response formats. In this work, we introduce LISA++,
an update to the existing LISA model, focusing on improving core
functionalities while keeping the base architecture intact. The main
enhancements in LISA++ include: \textbf{1) Enhanced Segmentation}: The instance
segmentation ability has been added, providing a more detailed scene analysis
along with the existing multi-region semantic segmentation. \textbf{2) More
Natural Conversation}: Improved capability for multi-turn dialogue, with the
ability to incorporate segmentation results directly into text responses, i.e.,
Segmentation in Dialogue (SiD). These improvements are achieved by curating the
existing samples of generic segmentation datasets, aimed specifically at
enhancing the segmentation and conversational skills without structural change
and additional data sources. Comparative analysis with the original LISA model
shows significant advancements in these areas, positioning LISA++ as a notable
upgrade in visual understanding and interaction. LISA++'s adaptability and
improved features highlight the versatility of the mask-as-embedding paradigm
proposed by LISA, and the potential as a foundational model for diverse
applications.
- Abstract(参考訳): lisaは、セグメンテーションと大きな言語モデルの間のギャップを効果的に橋渡しして、推論セグメンテーションを可能にするが、ターゲット領域の異なるインスタンスを区別できず、事前定義されたテキスト応答フォーマットによって制約されるという、いくつかの制限がある。
本稿では,既存のLISAモデルの更新であるLISA++を紹介する。
LISA++の主な機能拡張は以下のとおりである。 \textbf{1) Enhanced Segmentation}: インスタンスセグメンテーション機能が追加され、既存のマルチリージョンセグメンテーションとともに、より詳細なシーン分析が提供される。
\textbf{2) More Natural Conversation}: セグメンテーション結果を直接テキスト応答に組み込む機能、すなわちSegmentation in Dialogue (SiD)。
これらの改善は、構造的な変更やデータソースを追加せずにセグメンテーションと会話スキルを強化することを目的とした、ジェネリックセグメンテーションデータセットの既存のサンプルをキュレートすることで達成される。
元のLISAモデルとの比較分析は、これらの領域において大きな進歩を示し、LISA++を視覚的理解と相互作用の顕著なアップグレードとして位置づけている。
LISA++の適応性と改良された機能は、LISAが提案したマスク・アズ・エンベッド・パラダイムの汎用性と、多様なアプリケーションの基盤モデルとしての可能性を強調している。
関連論文リスト
- Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - Cross-domain Multi-modal Few-shot Object Detection via Rich Text [21.36633828492347]
クロスモーダルな特徴抽出と統合は、数ショットの学習タスクで安定したパフォーマンス改善をもたらした。
MM-OD (CDMM-FSOD) のクロスドメイン数ショット一般化について検討し,メタラーニングに基づく多モード数ショット検出手法を提案する。
論文 参考訳(メタデータ) (2024-03-24T15:10:22Z) - From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Explore-Instruct: Enhancing Domain-Specific Instruction Coverage through
Active Exploration [64.58185031596169]
Explore-Instructは、ドメイン固有の命令チューニングで使用されるデータカバレッジを強化する新しいアプローチである。
データ中心分析は、ドメイン固有の命令カバレッジを改善するために提案手法の有効性を検証する。
我々の発見は、特にドメイン固有の文脈において、命令カバレッジを改善するための有望な機会を提供する。
論文 参考訳(メタデータ) (2023-10-13T15:03:15Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。