論文の概要: Multiscale Memory Comparator Transformer for Few-Shot Video Segmentation
- arxiv url: http://arxiv.org/abs/2307.07812v1
- Date: Sat, 15 Jul 2023 14:21:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 17:37:58.117112
- Title: Multiscale Memory Comparator Transformer for Few-Shot Video Segmentation
- Title(参考訳): Few-Shot Video Segmentationのためのマルチスケールメモリコンバータ変換器
- Authors: Mennatullah Siam, Rezaul Karim, He Zhao, Richard Wildes
- Abstract要約: 本稿では,メタ学習型マルチスケールメモリ比較器 (MMC) を提案する。
従来の作業とは違って、スケール情報交換時の詳細な機能マップを保存します。
我々の手法はベースラインを上回り、最先端のパフォーマンスを得る。
- 参考スコア(独自算出の注目度): 8.16038976420041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot video segmentation is the task of delineating a specific novel class
in a query video using few labelled support images. Typical approaches compare
support and query features while limiting comparisons to a single feature layer
and thereby ignore potentially valuable information. We present a meta-learned
Multiscale Memory Comparator (MMC) for few-shot video segmentation that
combines information across scales within a transformer decoder. Typical
multiscale transformer decoders for segmentation tasks learn a compressed
representation, their queries, through information exchange across scales.
Unlike previous work, we instead preserve the detailed feature maps during
across scale information exchange via a multiscale memory transformer decoding
to reduce confusion between the background and novel class. Integral to the
approach, we investigate multiple forms of information exchange across scales
in different tasks and provide insights with empirical evidence on which to use
in each task. The overall comparisons among query and support features benefit
from both rich semantics and precise localization. We demonstrate our approach
primarily on few-shot video object segmentation and an adapted version on the
fully supervised counterpart. In all cases, our approach outperforms the
baseline and yields state-of-the-art performance. Our code is publicly
available at https://github.com/MSiam/MMC-MultiscaleMemory.
- Abstract(参考訳): ビデオセグメンテーション(Few-shot video segmentation)は、ラベル付きサポートイメージの少ないクエリビデオにおいて、特定の新規クラスを記述するためのタスクである。
典型的なアプローチでは、単一の機能層との比較を制限しながら、サポートとクエリ機能を比較し、潜在的に価値のある情報を無視する。
本稿では,トランスフォーマーデコーダ内のスケールにまたがる情報を結合したビデオセグメンテーションのためのメタ学習型マルチスケールメモリコンパレータ(mmc)を提案する。
セグメンテーションタスクのための典型的なマルチスケールトランスフォーマーデコーダは、スケール間の情報交換を通じて、圧縮表現とそのクエリを学習する。
従来とは違って,マルチスケールメモリトランスフォーマーデコードにより,マルチスケール情報交換時の詳細な特徴マップを保存し,バックグラウンドと新規クラスの混同を軽減する。
提案手法と統合して,異なるタスクのスケールにわたる情報交換の複数の形態を調査し,各タスクで使用する方法の実証的証拠を提示する。
クエリとサポート機能の全体的な比較は、リッチセマンティクスと正確なローカライゼーションの両方のメリットがある。
提案手法は,ビデオオブジェクトのセグメンテーションと,完全教師付きセグメンテーションに適応したバージョンを主とする。
いずれの場合も、我々の手法はベースラインを上回り、最先端のパフォーマンスを得る。
私たちのコードはhttps://github.com/MSiam/MMC-MultiscaleMemoryで公開されています。
関連論文リスト
- OMG-Seg: Is One Model Good Enough For All Segmentation? [83.17068644513144]
OMG-Segは、タスク固有のクエリと出力を持つトランスフォーマーベースのエンコーダデコーダアーキテクチャである。
OMG-Segは10以上の異なるセグメンテーションタスクをサポートできるが、計算とパラメータのオーバーヘッドを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-01-18T18:59:34Z) - Multi-grained Temporal Prototype Learning for Few-shot Video Object
Segmentation [156.4142424784322]
FSVOS(Few-Shot Video Object)は、いくつかのアノテーション付きサポートイメージで定義されるのと同じカテゴリで、クエリビデオ内のオブジェクトをセグメントすることを目的としている。
本稿では,ビデオデータの時間的相関性を扱うために,多粒度時間的ガイダンス情報を活用することを提案する。
提案するビデオIPMTモデルは,2つのベンチマークデータセットにおいて,従来のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-20T09:16:34Z) - MIANet: Aggregating Unbiased Instance and General Information for
Few-Shot Semantic Segmentation [6.053853367809978]
既存の少数ショットセグメンテーション手法はメタラーニング戦略に基づいて,サポートセットからインスタンス知識を抽出する。
本稿では,多情報集約ネットワーク(MIANet)を提案する。
PASCAL-5iとCOCO-20iの実験により、MIANetは優れた性能を示し、新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2023-05-23T09:36:27Z) - Look Before You Match: Instance Understanding Matters in Video Object
Segmentation [114.57723592870097]
本稿では,ビデオオブジェクトセグメンテーション(VOS)におけるインスタンスの重要性について論じる。
本稿では,クエリベースのインスタンスセグメンテーション(IS)ブランチを現在のフレームのインスタンス詳細に分割し,VOSブランチをメモリバンクと時空間マッチングする,VOS用の2分岐ネットワークを提案する。
我々は、ISブランチから十分に学習されたオブジェクトクエリを使用して、インスタンス固有の情報をクエリキーに注入し、インスタンス拡張マッチングをさらに実行します。
論文 参考訳(メタデータ) (2022-12-13T18:59:59Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - MPViT: Multi-Path Vision Transformer for Dense Prediction [43.89623453679854]
Vision Transformers (ViTs) は、単一スケールパッチによるマルチスケール表現のためのシンプルなマルチステージ構造を構築する。
OuriTsのスケールは5Mから73Mまでで、最先端のVision Transformerよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-21T06:34:50Z) - Learning Meta-class Memory for Few-Shot Semantic Segmentation [90.28474742651422]
全てのクラスで共有可能なメタ情報であるメタクラスの概念を導入する。
本稿では,メタクラスメモリをベースとした少ショットセグメンテーション手法 (MM-Net) を提案する。
提案したMM-Netは1ショット設定でCOCOデータセット上で37.5%のmIoUを達成する。
論文 参考訳(メタデータ) (2021-08-06T06:29:59Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。