論文の概要: Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation
- arxiv url: http://arxiv.org/abs/2303.06345v1
- Date: Sat, 11 Mar 2023 08:42:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 19:26:32.026232
- Title: Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation
- Title(参考訳): 画像セグメンテーション参照のための意味論的動的局所化と細分化
- Authors: Zhao Yang, Jiaqi Wang, Yansong Tang, Kai Chen, Hengshuang Zhao, Philip
H.S. Torr
- Abstract要約: 画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
- 参考スコア(独自算出の注目度): 102.25240608024063
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Referring image segmentation segments an image from a language expression.
With the aim of producing high-quality masks, existing methods often adopt
iterative learning approaches that rely on RNNs or stacked attention layers to
refine vision-language features. Despite their complexity, RNN-based methods
are subject to specific encoder choices, while attention-based methods offer
limited gains. In this work, we introduce a simple yet effective alternative
for progressively learning discriminative multi-modal features. The core idea
of our approach is to leverage a continuously updated query as the
representation of the target object and at each iteration, strengthen
multi-modal features strongly correlated to the query while weakening less
related ones. As the query is initialized by language features and successively
updated by object features, our algorithm gradually shifts from being
localization-centric to segmentation-centric. This strategy enables the
incremental recovery of missing object parts and/or removal of extraneous parts
through iteration. Compared to its counterparts, our method is more
versatile$\unicode{x2014}$it can be plugged into prior arts straightforwardly
and consistently bring improvements. Experimental results on the challenging
datasets of RefCOCO, RefCOCO+, and G-Ref demonstrate its advantage with respect
to the state-of-the-art methods.
- Abstract(参考訳): 参照画像セグメンテーションは、言語表現から画像をセグメンテーションする。
高品質なマスクを製作することを目的として、既存の手法では、RNNや注目層を積み重ねて視覚言語の特徴を洗練させる反復学習アプローチを採用することが多い。
その複雑さにもかかわらず、RNNベースのメソッドは特定のエンコーダ選択の対象となり、注意ベースのメソッドは限られた利得を提供する。
本稿では,識別的マルチモーダル特徴を段階的に学習するための単純かつ効果的な代替手法を提案する。
私たちのアプローチの核となる考え方は、ターゲットオブジェクトの表現として継続的に更新されたクエリを各イテレーションで活用し、クエリに強い相関を持つマルチモーダル機能を強化し、関連度の低いクエリを弱めることです。
クエリは言語特徴によって初期化され、オブジェクト特徴によって逐次更新されるので、アルゴリズムは徐々にローカライズ中心からセグメンテーション中心へとシフトする。
この戦略は、欠落したオブジェクト部分の漸進的なリカバリと、反復による外部部分の削除を可能にします。
比較すると,本手法はより汎用的な$\unicode{x2014}$it であり,先行技術にそのまま接続でき,一貫して改良が加えられる。
RefCOCO、RefCOCO+、G-Refの挑戦的なデータセットに関する実験結果は、最先端の手法に関してその利点を示している。
関連論文リスト
- MetaSeg: Content-Aware Meta-Net for Omni-Supervised Semantic
Segmentation [17.59676962334776]
弱いオブジェクトレベルのアノテーションから生成された擬似セグメンテーションラベルに必然的に存在するノイズラベル。
メタラーニングの最近の進歩に触発されて、クリーンラベルの背後に隠されたノイズを受動的に許容するのに苦労するのではなく、より実用的な解決策は、ノイズの多い領域を積極的に見つけることである、と私たちは主張する。
本稿では,任意のセグメンテーションモデルに対応するノイズインジケータとして,CAM-Netを主成分とするメタ学習に基づくセグメンテーション手法MetaSegを提案する。
論文 参考訳(メタデータ) (2024-01-22T07:31:52Z) - EAVL: Explicitly Align Vision and Language for Referring Image Segmentation [27.351940191216343]
入力画像と文に基づいて動的畳み込みカーネルを用いてセグメンテーション段階で特徴を整列するビジョン・ランゲージ・アリグナーを提案する。
本手法は, セグメンテーション段階におけるマルチモーダルな特徴の可能性を生かし, 異なるエムフェーズの言語特徴を画像特徴と整合させて, 微細なテキスト・ピクセル相関を実現する。
論文 参考訳(メタデータ) (2023-08-18T18:59:27Z) - Reflection Invariance Learning for Few-shot Semantic Segmentation [53.20466630330429]
Few-shot semantic segmentation (FSS) は、いくつかのアノテーション付きサポートイメージを持つクエリイメージにおいて、目に見えないクラスのオブジェクトをセグメントすることを目的としている。
本稿では,マルチビューマッチング方式でリフレクション不変性をマイニングするための,新しい数ショットセグメンテーションフレームワークを提案する。
PASCAL-$5textiti$とCOCO-$20textiti$データセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-06-01T15:14:58Z) - Object Representations as Fixed Points: Training Iterative Refinement
Algorithms with Implicit Differentiation [88.14365009076907]
反復的洗練は表現学習に有用なパラダイムである。
トレーニングの安定性とトラクタビリティを向上させる暗黙の差別化アプローチを開発する。
論文 参考訳(メタデータ) (2022-07-02T10:00:35Z) - A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation [52.911307452212256]
セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。
我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。
我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
論文 参考訳(メタデータ) (2021-12-08T22:06:31Z) - Anti-aliasing Semantic Reconstruction for Few-Shot Semantic Segmentation [66.85202434812942]
セグメンテーションを意味的再構成問題として再検討する。
基本クラスの特徴を,新しいクラス再構築のためのクラスレベルのセマンティック空間にまたがる一連の基底ベクトルに変換する。
提案手法はアンチエイリアス・セマンティック・リストラクション (ASR) と呼ばれ, 数発の学習問題に対して, 体系的かつ解釈可能な解法を提供する。
論文 参考訳(メタデータ) (2021-06-01T02:17:36Z) - Spatially Consistent Representation Learning [12.120041613482558]
本研究では,空間的に一貫した表現学習アルゴリズム(SCRL)を提案する。
ランダムに切り抜かれた局所領域のコヒーレントな空間表現を作ろうとする新しい自己教師付き目的を考案する。
ベンチマークデータセットを用いた下流のローカライゼーションタスクでは、提案したSCRLは大幅な性能改善を示す。
論文 参考訳(メタデータ) (2021-03-10T15:23:45Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。