論文の概要: Universal Segmentation at Arbitrary Granularity with Language
Instruction
- arxiv url: http://arxiv.org/abs/2312.01623v3
- Date: Thu, 7 Dec 2023 10:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 11:32:11.486898
- Title: Universal Segmentation at Arbitrary Granularity with Language
Instruction
- Title(参考訳): 言語指導による任意の粒度でのユニバーサルセグメンテーション
- Authors: Yong Liu, Cairong Zhang, Yitong Wang, Jiahao Wang, Yujiu Yang, Yansong
Tang
- Abstract要約: 言語命令のガイダンスを用いて任意の意味レベルでセグメンテーションを行うことができるユニバーサルセグメンテーションモデルUniLSegを提案する。
UniLSegをトレーニングするために、元の多様な分布から統一されたデータ形式にタスク群を再構成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクを出力する。
- 参考スコア(独自算出の注目度): 59.76130089644841
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to achieve universal segmentation of arbitrary semantic
level. Despite significant progress in recent years, specialist segmentation
approaches are limited to specific tasks and data distribution. Retraining a
new model for adaptation to new scenarios or settings takes expensive
computation and time cost, which raises the demand for versatile and universal
segmentation model that can cater to various granularity. Although some
attempts have been made for unifying different segmentation tasks or
generalization to various scenarios, limitations in the definition of paradigms
and input-output spaces make it difficult for them to achieve accurate
understanding of content at arbitrary granularity. To this end, we present
UniLSeg, a universal segmentation model that can perform segmentation at any
semantic level with the guidance of language instructions. For training
UniLSeg, we reorganize a group of tasks from original diverse distributions
into a unified data format, where images with texts describing segmentation
targets as input and corresponding masks are output. Combined with a automatic
annotation engine for utilizing numerous unlabeled data, UniLSeg achieves
excellent performance on various tasks and settings, surpassing both specialist
and unified segmentation models.
- Abstract(参考訳): 本稿では,任意の意味レベルの普遍的なセグメンテーションを実現することを目的とする。
近年の進歩にもかかわらず、専門的なセグメンテーションアプローチは特定のタスクやデータ分散に限られている。
新しいシナリオや設定に適応するための新しいモデルをトレーニングするには、計算コストと時間コストがかかるため、さまざまな粒度に対応する汎用的で普遍的なセグメンテーションモデルの需要が高まる。
異なるセグメンテーションタスクを統一したり、様々なシナリオに一般化するための試みもあるが、パラダイムや入力出力空間の定義の制限により、任意の粒度でコンテンツの正確な理解が困難になる。
この目的のために,言語指示の指導により任意の意味レベルでセグメンテーションを行うことのできるユニバーサルセグメンテーションモデルであるunilsegを提案する。
unilsegをトレーニングするために、タスク群を元の多様なディストリビューションから統一データフォーマットに再編成し、セグメンテーションターゲットを入力として記述したテキストと対応するマスクが出力される。
多数のラベルのないデータを利用する自動アノテーションエンジンと組み合わせることで、unilsegは様々なタスクや設定で優れたパフォーマンスを実現し、専門的なセグメンテーションモデルと統一されたセグメンテーションモデルの両方を上回っている。
関連論文リスト
- Training-Free Semantic Segmentation via LLM-Supervision [37.9007813884699]
本稿では,大規模言語モデル(LLM)を用いたテキスト教師付きセマンティックセマンティックセマンティクスの新しいアプローチを提案する。
我々のメソッドは LLM から始まり、より正確なクラス表現のための詳細なサブクラスのセットを生成する。
次に、テキスト教師付きセマンティックセマンティックセマンティクスモデルを用いて、生成されたサブクラスをターゲットラベルとして適用する。
論文 参考訳(メタデータ) (2024-03-31T14:37:25Z) - Task-Specific Adaptation of Segmentation Foundation Model via Prompt Learning [7.6136466242670435]
本稿では,Segment Anything Model(SAM)に適合した即時学習によるセグメンテーション基礎モデルのタスク固有適応を提案する。
本手法は,入力プロンプトを組込み空間に調整し,目的タスクの特異性に適合させるプロンプト学習モジュールを含む。
様々なセグメンテーションシナリオに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-03-14T09:13:51Z) - OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - LISA: Reasoning Segmentation via Large Language Model [68.24075852136761]
そこで我々は,新たなセグメンテーションタスク,すなわち推論セグメンテーションを提案する。
このタスクは、複雑で暗黙的なクエリテキストを与えられたセグメンテーションマスクを出力するように設計されている。
提案するLISA: Large Language Instructed Assistantは,マルチモーダル大規模言語モデルの言語生成能力を継承する。
論文 参考訳(メタデータ) (2023-08-01T17:50:17Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - AIMS: All-Inclusive Multi-Level Segmentation [93.5041381700744]
視覚領域を3つのレベル(パート、エンティティ、リレーション)に分割するタスクであるAll-Inclusive Multi-Level(AIMS)を提案する。
また、アノテーションの不整合とタスク相関の2つの大きな課題に対処するために、マルチデータセットのマルチタスクトレーニングを通じて統合されたAIMSモデルを構築します。
論文 参考訳(メタデータ) (2023-05-28T16:28:49Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - FreeSeg: Unified, Universal and Open-Vocabulary Image Segmentation [42.89720785573885]
FreeSegはUnified、Universal、Open-Vocabulary Imageを実現するための汎用フレームワークである。
我々は,FreeSegが3つのセグメンテーションタスクの性能と一般化に新たな成果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-30T08:42:49Z) - BURT: BERT-inspired Universal Representation from Learning Meaningful
Segment [46.51685959045527]
この研究は普遍的な表現学習、すなわち一様ベクトル空間における言語単位の異なるレベルへの埋め込みを導入し、探求する。
我々は、異なるレベルの言語単位を同じベクトル空間に符号化する普遍表現モデルburtを提案する。
具体的には,ポイントワイズ相互情報(pmi)に基づいて有意義なセグメントを抽出・マスキングし,異なる粒度目標を事前学習段階に組み込む。
論文 参考訳(メタデータ) (2020-12-28T16:02:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。