論文の概要: GraCo: Granularity-Controllable Interactive Segmentation
- arxiv url: http://arxiv.org/abs/2405.00587v2
- Date: Thu, 16 May 2024 12:17:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 18:15:48.788246
- Title: GraCo: Granularity-Controllable Interactive Segmentation
- Title(参考訳): GraCo: 粒度制御可能なインタラクティブセグメンテーション
- Authors: Yian Zhao, Kehan Li, Zesen Cheng, Pengchong Qiao, Xiawu Zheng, Rongrong Ji, Chang Liu, Li Yuan, Jie Chen,
- Abstract要約: Granularity-Controllable Interactive (GraCo) は、入力に追加パラメータを導入することによって、予測粒度の正確な制御を可能にする新しいアプローチである。
GraCoは、事前訓練されたISモデルのセマンティック特性を利用して、豊富なマスクとグラニュラリティのペアを自動的に生成する。
オブジェクトと部分レベルの複雑なシナリオの実験は、GraCoが以前の方法よりも大きな利点があることを示しています。
- 参考スコア(独自算出の注目度): 52.9695642626127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive Segmentation (IS) segments specific objects or parts in the image according to user input. Current IS pipelines fall into two categories: single-granularity output and multi-granularity output. The latter aims to alleviate the spatial ambiguity present in the former. However, the multi-granularity output pipeline suffers from limited interaction flexibility and produces redundant results. In this work, we introduce Granularity-Controllable Interactive Segmentation (GraCo), a novel approach that allows precise control of prediction granularity by introducing additional parameters to input. This enhances the customization of the interactive system and eliminates redundancy while resolving ambiguity. Nevertheless, the exorbitant cost of annotating multi-granularity masks and the lack of available datasets with granularity annotations make it difficult for models to acquire the necessary guidance to control output granularity. To address this problem, we design an any-granularity mask generator that exploits the semantic property of the pre-trained IS model to automatically generate abundant mask-granularity pairs without requiring additional manual annotation. Based on these pairs, we propose a granularity-controllable learning strategy that efficiently imparts the granularity controllability to the IS model. Extensive experiments on intricate scenarios at object and part levels demonstrate that our GraCo has significant advantages over previous methods. This highlights the potential of GraCo to be a flexible annotation tool, capable of adapting to diverse segmentation scenarios. The project page: https://zhao-yian.github.io/GraCo.
- Abstract(参考訳): インタラクティブセグメンテーション(IS)は、ユーザ入力に応じて画像内の特定のオブジェクトまたは部品をセグメント化する。
現在のISパイプラインは、単一粒度出力と多粒度出力の2つのカテゴリに分類される。
後者は、前者に存在する空間的あいまいさを軽減することを目的としている。
しかし、多粒度出力パイプラインは、限られた相互作用の柔軟性に悩まされ、冗長な結果を生み出す。
本研究では,グラニュラリティ・制御可能な対話型セグメンテーション(GraCo)を導入する。これは,入力に追加パラメータを導入することで,予測粒度を正確に制御できる新しいアプローチである。
これにより、インタラクティブシステムのカスタマイズが促進され、あいまいさを解消しながら冗長性を排除できる。
にもかかわらず、マルチグラニュラリティマスクのアノテートと粒度アノテーション付きデータセットの欠如は、モデルが出力粒度を制御するために必要なガイダンスを取得するのを困難にしている。
この問題に対処するために,事前学習したISモデルのセマンティック性を活かした任意のグラニュラリティマスク生成器を設計し,手書きのアノテーションを必要とせず,多量のマスク-グラニュラリティペアを自動生成する。
これらのペアに基づいて、ISモデルに粒度制御性を効率的に付与する粒度制御可能な学習戦略を提案する。
オブジェクトと部分レベルの複雑なシナリオに関する大規模な実験は、GraCoが以前の方法よりも大きな利点を持っていることを実証しています。
これはGraCoがフレキシブルなアノテーションツールになり、多様なセグメンテーションシナリオに適応できる可能性を強調している。
プロジェクトページ:https://zhao-yian.github.io/GraCo。
関連論文リスト
- DFIMat: Decoupled Flexible Interactive Matting in Multi-Person Scenarios [32.77825044757212]
本稿では,フレキシブル・インタラクティブ・マッティングを実現する非結合型フレームワークDFIMatを提案する。
具体的には、まず、シーンの意味やフレキシブルなユーザ入力を理解してターゲットインスタンスをローカライズし、インスタンスレベルのマッチングの洗練を行う。
サブタスクを学習し易くし、柔軟なマルチタイプ入力により効率と効率がさらに向上するので、デカップリングによる明らかなパフォーマンス向上が観察できる。
論文 参考訳(メタデータ) (2024-10-13T10:02:58Z) - Instruction-guided Multi-Granularity Segmentation and Captioning with Large Multimodal Model [19.861556031795725]
MGLMM(Multi-Granularity Large Multimodal Model)を導入する。
MGLMMはユーザ指示に従ってキャプション(SegCap)の粒度をシームレスに調整することができる。
8つ以上の下流タスクに対処し、最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-20T11:13:31Z) - N2F2: Hierarchical Scene Understanding with Nested Neural Feature Fields [112.02885337510716]
Nested Neural Feature Fields (N2F2)は、階層的な監視を用いて単一機能フィールドを学習する新しいアプローチである。
画像空間の任意のスケールで意味的に意味のある画素群を提供するために、2次元クラス非依存セグメンテーションモデルを利用する。
オープンな3次元セグメンテーションやローカライゼーションといったタスクにおいて,最先端のフィールド蒸留法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-03-16T18:50:44Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。
本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文 参考訳(メタデータ) (2023-05-24T16:26:05Z) - Multi-granularity Interaction Simulation for Unsupervised Interactive
Segmentation [38.08152990071453]
我々は、教師なし対話的セグメンテーションのための有望な方向を開くために、MIS(Multi-granularity Interaction Simulation)アプローチを導入する。
我々のMISは、非深層学習の非教師付き手法よりも優れており、アノテーションを使わずに従来の深層教師付き手法と同等である。
論文 参考訳(メタデータ) (2023-03-23T16:19:43Z) - DuAT: Dual-Aggregation Transformer Network for Medical Image
Segmentation [21.717520350930705]
トランスフォーマーベースのモデルはコンピュータビジョンタスクで成功することが広く実証されている。
しかし、それらはしばしば大きなパターンの特徴によって支配され、局所的な詳細が失われる。
本稿では、2つの革新的な設計を特徴とするDuATと呼ばれるDual-Aggregation Transformer Networkを提案する。
大腸内視鏡画像における皮膚病変像とポリープの分画における最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-21T07:54:02Z) - BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。
形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。
提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T04:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。