論文の概要: Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation
- arxiv url: http://arxiv.org/abs/2405.15169v1
- Date: Fri, 24 May 2024 03:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-27 18:18:44.235629
- Title: Bring Adaptive Binding Prototypes to Generalized Referring Expression Segmentation
- Title(参考訳): 一般化された参照表現セグメンテーションへの適応的バインディングプロトタイプの導入
- Authors: Weize Li, Zhicheng Zhao, Haochen Bai, Fei Su,
- Abstract要約: Generalized Referring Expressionは、複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新しい課題を導入する。
既存のRESメソッドは通常、洗練されたエンコーダデコーダと機能融合モジュールに依存している。
本稿では,適応結合型モデル (MABP) を提案する。
- 参考スコア(独自算出の注目度): 18.806738617249426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring Expression Segmentation (RES) has attracted rising attention, aiming to identify and segment objects based on natural language expressions. While substantial progress has been made in RES, the emergence of Generalized Referring Expression Segmentation (GRES) introduces new challenges by allowing expressions to describe multiple objects or lack specific object references. Existing RES methods, usually rely on sophisticated encoder-decoder and feature fusion modules, and are difficult to generate class prototypes that match each instance individually when confronted with the complex referent and binary labels of GRES. In this paper, reevaluating the differences between RES and GRES, we propose a novel Model with Adaptive Binding Prototypes (MABP) that adaptively binds queries to object features in the corresponding region. It enables different query vectors to match instances of different categories or different parts of the same instance, significantly expanding the decoder's flexibility, dispersing global pressure across all queries, and easing the demands on the encoder. Experimental results demonstrate that MABP significantly outperforms state-of-the-art methods in all three splits on gRefCOCO dataset. Meanwhile, MABP also surpasses state-of-the-art methods on RefCOCO+ and G-Ref datasets, and achieves very competitive results on RefCOCO. Code is available at https://github.com/buptLwz/MABP
- Abstract(参考訳): Referring Expression Segmentation (RES)は、自然言語表現に基づいてオブジェクトを識別し、セグメント化することを目的として、注目を集めている。
RESではかなりの進歩があったが、Generalized Referring Expression Segmentation (GRES)の出現により、式が複数のオブジェクトを記述したり、特定のオブジェクト参照を欠いたりすることで、新たな課題がもたらされた。
既存のRESメソッドは、通常、洗練されたエンコーダデコーダとフィーチャーフュージョンモジュールに依存しており、GRESの複雑な参照とバイナリラベルに直面すると、各インスタンスに個別にマッチするクラスプロトタイプを生成するのは難しい。
本稿では、RESとGRESの違いを再評価し、対応する領域のオブジェクト特徴にクエリを適応的にバインドする適応結合型モデル(MABP)を提案する。
これにより、異なるクエリベクタが、異なるカテゴリや同じインスタンスの異なる部分のインスタンスにマッチし、デコーダの柔軟性を大幅に拡張し、すべてのクエリにグローバルなプレッシャーを分散させ、エンコーダの要求を緩和することができる。
実験の結果,MABPはgRefCOCOデータセット上の3つの分割において,最先端の手法よりも有意に優れていた。
一方、MABPはRefCOCO+とG-Refデータセットの最先端の手法を超越し、RefCOCO上で非常に競争力のある結果を得る。
コードはhttps://github.com/buptLwz/MABPで入手できる。
関連論文リスト
- HDC: Hierarchical Semantic Decoding with Counting Assistance for Generalized Referring Expression Segmentation [33.40691116355158]
Generalized Referring Expression (GRES)は、複数の/非ターゲットシナリオを含むことによって、古典的なRESの定式化を増幅する。
我々は、$textbfH$ierarchical Semantic $textbfD$ecoding with $textbfC$ounting Assistance framework (HDC)を提案する。
我々はHDCに明示的なカウント機能を持たせ、複数の/単一/非ターゲット設定における包括的オブジェクト認識を容易にする。
論文 参考訳(メタデータ) (2024-05-24T15:53:59Z) - GSVA: Generalized Segmentation via Multimodal Large Language Models [72.57095903188922]
Generalized Referring Expression (GRES)は、従来のRESの範囲を拡張して、1つの式で複数のオブジェクトを参照したり、画像に存在しない空のターゲットを特定する。
セグメンテーションMLLMは、ユーザが特定のプロンプトで複数の主題を参照するケースを正しく扱えないため、現在のGRESの解決策は満足できないままである。
本稿では,このギャップに対処する汎用ビジョンアシスタント(GSVA)を提案する。
論文 参考訳(メタデータ) (2023-12-15T02:54:31Z) - Uncovering Prototypical Knowledge for Weakly Open-Vocabulary Semantic
Segmentation [59.37587762543934]
本稿では,弱開語彙セマンティックセマンティックセグメンテーション(WOVSS)の問題点について検討する。
既存の方法は、グループトークンの使用に関する粒度の矛盾に悩まされる。
マルチモーダル正規化を組み込んだプロトタイプ誘導ネットワーク(PGSeg)を提案する。
論文 参考訳(メタデータ) (2023-10-29T13:18:00Z) - Referring Expression Comprehension Using Language Adaptive Inference [15.09309604460633]
本稿では,動的推論のための表現モデルとRECモデルの適応性について検討する。
本稿では,参照表現に条件付きRECモデルから言語適応を抽出できるLanguage Adaptive Subnets (LADS) というフレームワークを提案する。
RefCOCO, RefCO+, RefCOCOg, Referit の実験により, 提案手法はより高速な推論速度と最先端手法に対する高精度な精度を実現することを示した。
論文 参考訳(メタデータ) (2023-06-06T07:58:59Z) - GRES: Generalized Referring Expression Segmentation [32.12725360752345]
一般化参照式(Generalized Referring Expression, GRES)と呼ばれる新しいベンチマークを導入する。
GRESは、任意の数のターゲットオブジェクトを参照することができる。
我々は,マルチターゲット,ノーターゲット,シングルターゲット表現を含むgRefCOCOと呼ばれる,最初の大規模GRESデータセットを構築した。
論文 参考訳(メタデータ) (2023-06-01T17:57:32Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - UnifieR: A Unified Retriever for Large-Scale Retrieval [84.61239936314597]
大規模な検索は、クエリを与えられた巨大なコレクションから関連ドキュメントをリコールすることである。
事前学習型言語モデル(PLM)に基づく最近の検索手法は,高密度ベクターあるいはレキシコンに基づくパラダイムに大別することができる。
本論文では,高密度ベクトルとレキシコンに基づく検索を2つの表現能力を持つ1つのモデルで統合する学習フレームワークUnifieRを提案する。
論文 参考訳(メタデータ) (2022-05-23T11:01:59Z) - I^3Net: Implicit Instance-Invariant Network for Adapting One-Stage
Object Detectors [64.93963042395976]
暗黙のInstance-Invariant Network(I3Net)は、ワンステージ検出器の適応に適しています。
i3netは、異なる層における深い特徴の自然な特徴を利用してインスタンス不変な特徴を暗黙的に学習する。
実験によると、I3Netはベンチマークデータセットの最先端のパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2021-03-25T11:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。