論文の概要: A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection
- arxiv url: http://arxiv.org/abs/2203.04708v2
- Date: Fri, 11 Mar 2022 07:37:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 00:20:55.455627
- Title: A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection
- Title(参考訳): グループベースセグメンテーションのための統一トランスフォーマフレームワーク:コセグメンテーション,コサリエンシー検出,ビデオサルエント物体検出
- Authors: Yukun Su, Jingliang Deng, Ruizhou Sun, Guosheng Lin, Qingyao Wu
- Abstract要約: 人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
- 参考スコア(独自算出の注目度): 59.21990697929617
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Humans tend to mine objects by learning from a group of images or several
frames of video since we live in a dynamic world. In the computer vision area,
many researches focus on co-segmentation (CoS), co-saliency detection (CoSD)
and video salient object detection (VSOD) to discover the co-occurrent objects.
However, previous approaches design different networks on these similar tasks
separately, and they are difficult to apply to each other, which lowers the
upper bound of the transferability of deep learning frameworks. Besides, they
fail to take full advantage of the cues among inter- and intra-feature within a
group of images. In this paper, we introduce a unified framework to tackle
these issues, term as UFO (Unified Framework for Co-Object Segmentation).
Specifically, we first introduce a transformer block, which views the image
feature as a patch token and then captures their long-range dependencies
through the self-attention mechanism. This can help the network to excavate the
patch structured similarities among the relevant objects. Furthermore, we
propose an intra-MLP learning module to produce self-mask to enhance the
network to avoid partial activation. Extensive experiments on four CoS
benchmarks (PASCAL, iCoseg, Internet and MSRC), three CoSD benchmarks
(Cosal2015, CoSOD3k, and CocA) and four VSOD benchmarks (DAVIS16, FBMS, ViSal
and SegV2) show that our method outperforms other state-of-the-arts on three
different tasks in both accuracy and speed by using the same network
architecture , which can reach 140 FPS in real-time.
- Abstract(参考訳): 人間は、動的な世界に住んでいるため、画像のグループやビデオのフレームから学習することで、オブジェクトをマイニングする傾向があります。
コンピュータビジョン領域では、コセグメンテーション(CoS)、コセグメンテーション検出(CoSD)、ビデオサルエントオブジェクト検出(VSOD)に焦点をあてて、コセグメンテーション(CoS)を検出する。
しかし、従来のアプローチでは、これらの類似したタスク上で異なるネットワークを個別に設計しており、互いに適用することは困難であり、ディープラーニングフレームワークの転送可能性の上限を低くする。
さらに、画像グループ内の機能間および機能内におけるヒントを十分に活用できていない。
本稿では,これらの問題に取り組むための統一フレームワークであるufo(unified framework for co-object segmentation)を提案する。
具体的には、まず、画像の特徴をパッチトークンとみなし、自己保持機構を通じてそれらの長距離依存関係をキャプチャするトランスフォーマーブロックを導入する。
これにより、ネットワークが関連するオブジェクト間のパッチ構造上の類似性を発掘するのに役立つ。
さらに,部分的アクティベーションを回避するために,自己マスクを生成するMLP内学習モジュールを提案する。
4つのCoSベンチマーク(PASCAL、iCoseg、Internet、MSRC)、3つのCoSDベンチマーク(Cosal2015、CoSOD3k、CocA)と4つのVSODベンチマーク(DAVIS16、FBMS、ViSal、SegV2)の大規模な実験により、我々の手法は、同じネットワークアーキテクチャを用いて3つの異なるタスクにおいて、精度と速度の両方において、140 FPSまでリアルタイムに到達できる他の最先端技術よりも優れていることが示された。
関連論文リスト
- A Simple yet Effective Network based on Vision Transformer for
Camouflaged Object and Salient Object Detection [33.30644598646274]
視覚変換器(ViT)に基づく簡易で効果的なネットワーク(SENet)を提案する。
ローカル情報をモデル化するTransformerの機能を強化するために,ローカル情報キャプチャモジュール(licM)を提案する。
また,BCE(Binary Cross-Entropy)とIoU(Intersection over Union)に基づく動的重み付き損失(DW損失)を提案する。
論文 参考訳(メタデータ) (2024-02-29T07:29:28Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - Associating Objects with Transformers for Video Object Segmentation [74.51719591192787]
本稿では,複数のオブジェクトを一様に一致・復号化するためのAssociating Objects with Transformers (AOT)アプローチを提案する。
AOTは複数のターゲットを同一の高次元埋め込み空間に関連付けるための識別機構を用いる。
第3回大規模ビデオオブジェクトチャレンジでは1位にランクインした。
論文 参考訳(メタデータ) (2021-06-04T17:59:57Z) - CoSformer: Detecting Co-Salient Object with Transformers [2.3148470932285665]
Co-Salient Object Detection (CoSOD) は、人間の視覚システムをシミュレートして、関連する画像のグループから共通および重度のオブジェクトを発見することを目的としています。
複数の画像から高精細かつ一般的な視覚パターンを抽出するCo-Salient Object Detection Transformer (CoSformer) ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T02:39:12Z) - Target Detection and Segmentation in Circular-Scan
Synthetic-Aperture-Sonar Images using Semi-Supervised Convolutional
Encoder-Decoders [9.713290203986478]
マルチアスペクト・セミコヒーレント画像のためのサリエンシーベースのマルチターゲット検出・セグメンテーションフレームワークを提案する。
我々のフレームワークはマルチブランチ・畳み込みエンコーダ・デコーダネットワーク(MB-CEDN)に依存している。
私たちのフレームワークはディープネットワークよりも優れています。
論文 参考訳(メタデータ) (2021-01-10T18:58:45Z) - Auto-Panoptic: Cooperative Multi-Component Architecture Search for
Panoptic Segmentation [144.50154657257605]
本稿では、バックボーン、セグメンテーションブランチ、フィーチャーフュージョンモジュールを含むすべての主要コンポーネントを同時に検索する効率的なフレームワークを提案する。
検索したアーキテクチャ、すなわちAuto-Panopticは、挑戦的なCOCOとADE20Kベンチマークに関する新しい最先端技術を実現します。
論文 参考訳(メタデータ) (2020-10-30T08:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。