論文の概要: Deep Spectral Improvement for Unsupervised Image Instance Segmentation
- arxiv url: http://arxiv.org/abs/2402.02474v1
- Date: Sun, 4 Feb 2024 13:09:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 19:23:49.835073
- Title: Deep Spectral Improvement for Unsupervised Image Instance Segmentation
- Title(参考訳): 教師なし画像インスタンスセグメンテーションのための深いスペクトル改善
- Authors: Farnoosh Arefi, Amir M. Mansourian, Shohreh Kasaei
- Abstract要約: 本稿では,自己教師付きバックボーンから抽出した特徴マップのすべてのチャネルが,例えばセグメント化の目的のために十分な情報を含んでいるわけではないという事実に対処する。
ノイズチャンネルリダクション(NCR)とディバイジョンベースリダクション(DCR)の2つのチャネルリダクションモジュールを提案する。
NCRはノイズが少ないためエントロピーの低いチャネルを保持するが、DCRは効果的なインスタンスセグメンテーションのための十分な情報がないため、標準偏差の低いチャネルを保持する。
- 参考スコア(独自算出の注目度): 10.244917579790165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep spectral methods reframe the image decomposition process as a graph
partitioning task by extracting features using self-supervised learning and
utilizing the Laplacian of the affinity matrix to obtain eigensegments.
However, instance segmentation has received less attention compared to other
tasks within the context of deep spectral methods. This paper addresses the
fact that not all channels of the feature map extracted from a self-supervised
backbone contain sufficient information for instance segmentation purposes. In
fact, Some channels are noisy and hinder the accuracy of the task. To overcome
this issue, this paper proposes two channel reduction modules: Noise Channel
Reduction (NCR) and Deviation-based Channel Reduction (DCR). The NCR retains
channels with lower entropy, as they are less likely to be noisy, while DCR
prunes channels with low standard deviation, as they lack sufficient
information for effective instance segmentation. Furthermore, the paper
demonstrates that the dot product, commonly used in deep spectral methods, is
not suitable for instance segmentation due to its sensitivity to feature map
values, potentially leading to incorrect instance segments. A new similarity
metric called Bray-Curtis over Chebyshev (BoC) is proposed to address this
issue. It takes into account the distribution of features in addition to their
values, providing a more robust similarity measure for instance segmentation.
Quantitative and qualitative results on the Youtube-VIS2019 dataset highlight
the improvements achieved by the proposed channel reduction methods and the use
of BoC instead of the conventional dot product for creating the affinity
matrix. These improvements are observed in terms of mean Intersection over
Union and extracted instance segments, demonstrating enhanced instance
segmentation performance. The code is available on:
https://github.com/farnooshar/SpecUnIIS
- Abstract(参考訳): 深層スペクトル法は,自己教師付き学習を用いて特徴を抽出し,アフィニティ行列のラプラシアンを利用して固有値を得ることにより,画像分割プロセスをグラフ分割タスクとして再構成する。
しかし、深層スペクトル法の文脈における他のタスクに比べて、インスタンスセグメンテーションにはあまり注意が払われていない。
本稿では,自己教師付きバックボーンから抽出した特徴マップのすべてのチャネルが,例えばセグメント化のために十分な情報を含んでいるわけではないことを述べる。
実際、一部のチャネルはノイズが多く、タスクの正確性を妨げている。
そこで本研究では,ノイズチャネルリダクション (NCR) とディバイジョンベースリダクション (DCR) の2つのチャネルリダクションモジュールを提案する。
NCRはノイズが少ないためエントロピーの低いチャネルを保持するが、DCRは効果的なインスタンスセグメンテーションのための十分な情報がないため、標準偏差の低いチャネルを保持する。
さらに, 深層スペクトル法で一般的に用いられるドット積は, 特徴マップ値に対する感度が高いため, インスタンスセグメンテーションには適さないことを示し, 不正確なインスタンスセグメンテーションを生じさせる可能性を示した。
この問題に対処するために、Bray-Curtis over Chebyshev (BoC)と呼ばれる新しい類似度指標が提案されている。
それらの値に加えて、機能の分布を考慮に入れ、インスタンスセグメンテーションのより堅牢な類似度尺度を提供する。
Youtube-VIS2019データセットの定量および定性的な結果は、提案したチャネル還元法によって達成された改善と、親和性行列を作成するために従来のドット製品の代わりにBoCを使用することを強調している。
これらの改善は、ユニオンと抽出されたインスタンスセグメントに対する平均インターセクションの観点で観察され、強化されたインスタンスセグメント性能を示す。
コードは、https://github.com/farnooshar/SpecUnIISで入手できる。
関連論文リスト
- Pubic Symphysis-Fetal Head Segmentation Network Using BiFormer Attention Mechanism and Multipath Dilated Convolution [6.673262517388075]
経ペリン超音波画像における胎児の頭頂部偏位は,胎児の頭頂部偏位と進行を評価する上で重要な役割を担っている。
超音波画像セグメンテーションのための動的でクエリ対応のスパースアテンション機構を提案する。
BRAU-Net という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-14T10:14:04Z) - Improving Weakly-supervised Video Instance Segmentation by Leveraging Spatio-temporal Consistency [9.115508086522887]
我々はEigen VISと呼ばれる弱い教師付き手法を導入し、他のVIS手法と比較して競争精度を向上する。
この方法は、時間固有値損失(TEL)とクリップレベルの品質コ効率(QCC)の2つの重要なイノベーションに基づいている。
コードはhttps://github.com/farnooshar/EigenVIS.comで公開されている。
論文 参考訳(メタデータ) (2024-08-29T16:05:05Z) - DiffCut: Catalyzing Zero-Shot Semantic Segmentation with Diffusion Features and Recursive Normalized Cut [62.63481844384229]
ファンデーションモデルは、言語、ビジョン、マルチモーダルタスクなど、さまざまな領域にまたがる強力なツールとして登場した。
本稿では,拡散UNetエンコーダを基礎ビジョンエンコーダとして使用し,教師なしゼロショットセグメンテーション手法であるDiffCutを紹介する。
我々の研究は、拡散UNetエンコーダに埋め込まれた極めて正確なセマンティック知識を強調し、下流タスクの基盤ビジョンエンコーダとして機能する。
論文 参考訳(メタデータ) (2024-06-05T01:32:31Z) - SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete
Diffusion Process [102.18226145874007]
そこで我々は,異なるセグメンテーションモデルによって生成されるオブジェクトマスクの品質を高めるために,SegRefinerと呼ばれるモデルに依存しないソリューションを提案する。
SegRefinerは粗いマスクを入力として取り、離散拡散プロセスを用いてそれらを洗練する。
さまざまな種類の粗いマスクにわたるセグメンテーションメトリックとバウンダリメトリックの両方を一貫して改善する。
論文 参考訳(メタデータ) (2023-12-19T18:53:47Z) - SimT: Handling Open-set Noise for Domain Adaptive Semantic Segmentation [58.61946589036262]
本稿では,ブラックボックスモデルを用いて,擬似ラベル付きターゲットデータのみにアクセス可能な実用的なドメイン適応(DA)セマンティックセマンティックセマンティクス問題について検討する。
ドメインギャップと2つのドメイン間のラベルシフトのため、擬似ラベル付きターゲットデータには、クローズドセットとオープンセットのラベルノイズが混在している。
DAセマンティックセグメンテーションにおける混合雑音分布をモデル化し、SimTの推定として問題を定式化するための単純なノイズ遷移行列(SimT)を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:48:08Z) - Bayesian Nonparametric Submodular Video Partition for Robust Anomaly
Detection [9.145168943972067]
MIL(Multiple-instance Learning)は、ビデオ異常検出問題に対処するための効果的な方法である。
我々は,MILモデルトレーニングを大幅に改善するために,新しいベイズ非パラメトリックサブモジュールビデオ分割(BN-SVP)を提案する。
我々の理論解析は,提案アルゴリズムの性能保証を確実にする。
論文 参考訳(メタデータ) (2022-03-24T04:00:49Z) - End-to-end video instance segmentation via spatial-temporal graph neural
networks [30.748756362692184]
ビデオインスタンスセグメンテーションは、イメージインスタンスセグメンテーションをビデオドメインに拡張する難しいタスクである。
既存のメソッドは、検出とセグメンテーションのサブプロブレムにのみシングルフレーム情報に依存するか、別の後処理ステップとしてハンドラートラッキングを使用する。
上述の制限に対処するグラフニューラルネット(GNN)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T05:38:08Z) - Channel DropBlock: An Improved Regularization Method for Fine-Grained
Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。
本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T09:03:02Z) - CE-FPN: Enhancing Channel Information for Object Detection [12.954675966833372]
特徴ピラミッドネットワーク(FPN)は,オブジェクト検出におけるマルチスケール特徴の抽出に有効なフレームワークである。
3つのシンプルで効果的なモジュールを備えた新しいチャネル強化ネットワーク(CE-FPN)を提示し、これらの問題を軽減します。
実験の結果, CE-FPNはMS COCOベンチマークの最先端FPN検出器と比較して, 競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2021-03-19T05:51:53Z) - Channelized Axial Attention for Semantic Segmentation [70.14921019774793]
チャネルアキシャルアテンション(CAA)を提案し、チャネルアテンションと軸アテンションをシームレスに統合し、計算複雑性を低減します。
私たちのCAAは、DANetのような他の注意モデルに比べて計算リソースをはるかに少なくするだけでなく、すべての検証済みデータセット上で最先端のResNet-101ベースのセグメンテーションモデルよりも優れています。
論文 参考訳(メタデータ) (2021-01-19T03:08:03Z) - Channel-wise Knowledge Distillation for Dense Prediction [73.99057249472735]
本稿では,学生ネットワークと教師ネットワークのチャンネルワイズ機能について提案する。
様々なネットワーク構造を持つ3つのベンチマークにおいて、一貫して優れた性能を実現している。
論文 参考訳(メタデータ) (2020-11-26T12:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。