論文の概要: TokenCut: Segmenting Objects in Images and Videos with Self-supervised
Transformer and Normalized Cut
- arxiv url: http://arxiv.org/abs/2209.00383v1
- Date: Thu, 1 Sep 2022 11:52:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 13:28:03.034753
- Title: TokenCut: Segmenting Objects in Images and Videos with Self-supervised
Transformer and Normalized Cut
- Title(参考訳): TokenCut: 自己監督型トランスフォーマーと正規化カットによる画像とビデオ中のオブジェクトのセグメンテーション
- Authors: Yangtao Wang (M-PSI), Xi Shen, Yuan Yuan (MIT CSAIL), Yuming Du,
Maomao Li, Shell Xu Hu, James L Crowley (M-PSI), Dominique Vaufreydaz (M-PSI)
- Abstract要約: 本稿では,自己教師型トランスフォーマーによって得られた特徴を利用して,画像やビデオ中の有能なオブジェクトを検出し,セグメント化するグラフベースのアルゴリズムについて述べる。
このアプローチの単純さにもかかわらず、いくつかの共通画像およびビデオ検出およびセグメンテーションタスクにおける最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 10.14612634076378
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we describe a graph-based algorithm that uses the features
obtained by a self-supervised transformer to detect and segment salient objects
in images and videos. With this approach, the image patches that compose an
image or video are organised into a fully connected graph, where the edge
between each pair of patches is labeled with a similarity score between patches
using features learned by the transformer. Detection and segmentation of
salient objects is then formulated as a graph-cut problem and solved using the
classical Normalized Cut algorithm. Despite the simplicity of this approach, it
achieves state-of-the-art results on several common image and video detection
and segmentation tasks. For unsupervised object discovery, this approach
outperforms the competing approaches by a margin of 6.1%, 5.7%, and 2.6%,
respectively, when tested with the VOC07, VOC12, and COCO20K datasets. For the
unsupervised saliency detection task in images, this method improves the score
for Intersection over Union (IoU) by 4.4%, 5.6% and 5.2%. When tested with the
ECSSD, DUTS, and DUT-OMRON datasets, respectively, compared to current
state-of-the-art techniques. This method also achieves competitive results for
unsupervised video object segmentation tasks with the DAVIS, SegTV2, and FBMS
datasets.
- Abstract(参考訳): 本稿では,自己教師付きトランスフォーマによって得られた特徴を用いて,画像や映像中の有価物の検出とセグメント化を行うグラフベースアルゴリズムについて述べる。
このアプローチにより、画像やビデオを構成する画像パッチは、完全に連結されたグラフに編成され、各パッチ間のエッジに、トランスフォーマーが学習した特徴を用いて、パッチ間の類似度スコアをラベル付けする。
有線物体の検出と分割はグラフカット問題として定式化し、古典的な正規化カットアルゴリズムを用いて解く。
このアプローチの単純さにもかかわらず、いくつかの共通画像およびビデオ検出およびセグメンテーションタスクにおける最先端の結果を達成する。
教師なしのオブジェクト発見において、このアプローチは、VOC07、VOC12、COCO20Kデータセットでテストした場合、それぞれ6.1%、5.7%、および2.6%のマージンで競合するアプローチより優れている。
画像中の教師なし唾液濃度検出タスクでは、IoU(Intersection over Union)のスコアを4.4%、5.6%、5.2%改善する。
現在の最先端技術と比較して、ECSSD、DUTS、DUT-OMRONデータセットでそれぞれテストする。
この方法は、davis、segtv2、fbmsデータセットで教師なしのビデオオブジェクトセグメンテーションタスクの競合結果も得る。
関連論文リスト
- UnSeGArmaNet: Unsupervised Image Segmentation using Graph Neural Networks with Convolutional ARMA Filters [10.940349832919699]
事前学習したViTを用いた教師なしセグメンテーションフレームワークを提案する。
画像内に固有のグラフ構造を利用することにより,セグメント化における顕著な性能を実現する。
提案手法は,ベンチマーク画像セグメンテーションデータセット上での最先端性能(教師付き手法に匹敵する)を提供する。
論文 参考訳(メタデータ) (2024-10-08T15:10:09Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - Video Segmentation Learning Using Cascade Residual Convolutional Neural
Network [0.0]
本研究では,残差情報を前景検出学習プロセスに組み込んだ新しい深層学習ビデオセグメンテーション手法を提案する。
Change Detection 2014とPetrobrasのプライベートデータセットであるPetrobrasROUTESで実施された実験は、提案手法の有効性を支持している。
論文 参考訳(メタデータ) (2022-12-20T16:56:54Z) - Guess What Moves: Unsupervised Video and Image Segmentation by
Anticipating Motion [92.80981308407098]
本稿では,動きに基づくセグメンテーションと外観に基づくセグメンテーションの強みを組み合わせたアプローチを提案する。
本稿では、画像分割ネットワークを監督し、単純な動きパターンを含む可能性のある領域を予測することを提案する。
教師なしのビデオセグメンテーションモードでは、ネットワークは、学習プロセス自体をこれらのビデオをセグメンテーションするアルゴリズムとして使用して、ラベルのないビデオの集合に基づいて訓練される。
論文 参考訳(メタデータ) (2022-05-16T17:55:34Z) - Tag-Based Attention Guided Bottom-Up Approach for Video Instance
Segmentation [83.13610762450703]
ビデオインスタンスは、ビデオシーケンス全体にわたるオブジェクトインスタンスのセグメンテーションと追跡を扱う、基本的なコンピュータビジョンタスクである。
そこで本研究では,従来の領域プロモーター方式ではなく,画素レベルの粒度でインスタンスマスク予測を実現するための,単純なエンドツーエンドのボトムアップ方式を提案する。
提案手法は,YouTube-VIS と DAVIS-19 のデータセット上での競合結果を提供する。
論文 参考訳(メタデータ) (2022-04-22T15:32:46Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Self-Supervised Transformers for Unsupervised Object Discovery using
Normalized Cut [0.0]
画像から物体を発見するために自己教師付きトランスフォーマー機能を利用するグラフベースのアプローチを実証する。
ビジュアルトークンは、トークンの類似性に基づいて接続スコアを表すエッジを持つ重み付きグラフのノードと見なされる。
弱教師付きオブジェクト検出では,CUBとImageNetの競合性能を実現する。
論文 参考訳(メタデータ) (2022-02-23T14:27:36Z) - Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。
提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。
提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文 参考訳(メタデータ) (2022-02-14T20:38:28Z) - Deep ensembles based on Stochastic Activation Selection for Polyp
Segmentation [82.61182037130406]
本研究は,大腸内視鏡検査における画像分割,特に正確なポリープ検出とセグメンテーションを扱う。
イメージセグメンテーションの基本アーキテクチャはエンコーダとデコーダで構成されている。
我々はデコーダのバックボーンを変更することで得られるDeepLabアーキテクチャのバリエーションを比較した。
論文 参考訳(メタデータ) (2021-04-02T02:07:37Z) - Saliency Enhancement using Gradient Domain Edges Merging [65.90255950853674]
本研究では,エッジとサリエンシマップをマージして,サリエンシマップの性能を向上させる手法を開発した。
これにより、DUT-OMRONデータセットの少なくとも3.4倍の平均的な改善により、エッジ(SEE)を使用したサリエンシ向上が提案された。
SEEアルゴリズムは前処理のためのSEE-Preと後処理のためのSEE-Postの2つの部分に分けられる。
論文 参考訳(メタデータ) (2020-02-11T14:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。