論文の概要: Global Spectral Filter Memory Network for Video Object Segmentation
- arxiv url: http://arxiv.org/abs/2210.05567v2
- Date: Wed, 12 Oct 2022 04:50:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 11:58:38.315246
- Title: Global Spectral Filter Memory Network for Video Object Segmentation
- Title(参考訳): ビデオオブジェクト分割のためのグローバルスペクトルフィルタメモリネットワーク
- Authors: Yong Liu, Ran Yu, Jiahao Wang, Xinyuan Zhao, Yitong Wang, Yansong
Tang, Yujiu Yang
- Abstract要約: 本稿では,フレーム内相互作用の促進による半教師付きビデオオブジェクトセグメンテーションについて検討する。
我々は,スペクトル領域における長期空間依存性を学習することにより,フレーム内相互作用を改善するグローバル・スペクトル・フィルタ・メモリ・ネットワーク(GSFM)を提案する。
- 参考スコア(独自算出の注目度): 33.42697528492191
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies semi-supervised video object segmentation through boosting
intra-frame interaction. Recent memory network-based methods focus on
exploiting inter-frame temporal reference while paying little attention to
intra-frame spatial dependency. Specifically, these segmentation model tends to
be susceptible to interference from unrelated nontarget objects in a certain
frame. To this end, we propose Global Spectral Filter Memory network (GSFM),
which improves intra-frame interaction through learning long-term spatial
dependencies in the spectral domain. The key components of GSFM is 2D (inverse)
discrete Fourier transform for spatial information mixing. Besides, we
empirically find low frequency feature should be enhanced in encoder (backbone)
while high frequency for decoder (segmentation head). We attribute this to
semantic information extracting role for encoder and fine-grained details
highlighting role for decoder. Thus, Low (High) Frequency Module is proposed to
fit this circumstance. Extensive experiments on the popular DAVIS and
YouTube-VOS benchmarks demonstrate that GSFM noticeably outperforms the
baseline method and achieves state-of-the-art performance. Besides, extensive
analysis shows that the proposed modules are reasonable and of great
generalization ability. Our source code is available at
https://github.com/workforai/GSFM.
- Abstract(参考訳): 本稿では,フレーム内相互作用の促進による半教師付きビデオオブジェクトセグメンテーションについて検討する。
最近のメモリネットワークベースの手法では、フレーム内空間依存性にほとんど注意を払わず、フレーム間時間参照の活用に焦点が当てられている。
具体的には、これらのセグメンテーションモデルは特定のフレーム内の非対象オブジェクトからの干渉に影響を受けやすい傾向にある。
本研究では,スペクトル領域における長期空間依存性を学習することでフレーム内インタラクションを改善するグローバルスペクトルフィルタメモリネットワーク(gsfm)を提案する。
GSFMの鍵となる構成要素は空間情報混合のための2次元離散フーリエ変換である。
また,デコーダ(セグメンテーションヘッド)では,低周波特性をエンコーダ(バックボーン)で拡張すべきであることを示す。
これを、エンコーダのセマンティック情報抽出ロールと、デコーダの詳細な詳細強調ロールに分類する。
したがって、この状況に適合する低(高)周波数モジュールが提案されている。
人気の高いDAVISとYouTube-VOSベンチマークの大規模な実験は、GSFMがベースライン法を著しく上回り、最先端のパフォーマンスを達成することを示した。
さらに、広範な解析により、提案された加群は妥当であり、大きな一般化能力を持つことが示されている。
ソースコードはhttps://github.com/workforai/gsfmで閲覧できます。
関連論文リスト
- Pubic Symphysis-Fetal Head Segmentation Network Using BiFormer Attention Mechanism and Multipath Dilated Convolution [6.673262517388075]
経ペリン超音波画像における胎児の頭頂部偏位は,胎児の頭頂部偏位と進行を評価する上で重要な役割を担っている。
超音波画像セグメンテーションのための動的でクエリ対応のスパースアテンション機構を提案する。
BRAU-Net という新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-14T10:14:04Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - A Spatial-Temporal Deformable Attention based Framework for Breast
Lesion Detection in Videos [107.96514633713034]
本稿では,STNet という空間的・時間的変形可能なアテンションベースのフレームワークを提案する。
我々のSTNetは、局所的な空間的時間的特徴融合を行うために、空間的時間的変形可能なアテンションモジュールを導入している。
乳腺病変の超音波画像データセットを用いた実験により,STNetは最先端の検出性能を得ることができた。
論文 参考訳(メタデータ) (2023-09-09T07:00:10Z) - Spatial-information Guided Adaptive Context-aware Network for Efficient
RGB-D Semantic Segmentation [9.198120596225968]
計算パラメータを削減し,アルゴリズムの堅牢性を保証する,効率的な軽量エンコーダデコーダネットワークを提案する。
また,NYUv2,SUN RGB-D,Cityscapesのデータセットを用いた実験結果から,本手法は最先端手法よりもセグメンテーション精度,推定時間,パラメータのトレードオフが良好であることが示された。
論文 参考訳(メタデータ) (2023-08-11T09:02:03Z) - Spectrum-guided Multi-granularity Referring Video Object Segmentation [56.95836951559529]
現在の参照ビデオオブジェクトセグメンテーション(R-VOS)技術は、符号化された(低解像度)視覚言語特徴から条件付きカーネルを抽出し、デコードされた高解像度特徴をセグメンテーションする。
これは、セグメント化カーネルが前方の計算で知覚に苦慮する重要な特徴の漂流を引き起こす。
符号化された特徴に対して直接セグメント化を行い,マスクをさらに最適化するために視覚的詳細を利用するスペクトル誘導多粒度手法を提案する。
論文 参考訳(メタデータ) (2023-07-25T14:35:25Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - S$^2$-FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation [6.744210626403423]
本稿では,リアルタイム道路シーンセマンティックセグメンテーションにおける精度/速度のトレードオフを実現するための新しいモデルを提案する。
具体的には、スケール対応ストリップ注意誘導特徴ピラミッドネットワーク(S$2-FPN)という軽量モデルを提案する。
我々のネットワークは,アテンションピラミッドフュージョン(APF)モジュール,スケール対応ストリップアテンションモジュール(SSAM)モジュール,グローバルフィーチャーアップサンプル(GFU)モジュールの3つの主要モジュールで構成されている。
論文 参考訳(メタデータ) (2022-06-15T05:02:49Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - iffDetector: Inference-aware Feature Filtering for Object Detection [70.8678270164057]
Inference-aware Feature Filtering (IFF)モジュールを導入し、現代の検出器と簡単に組み合わせることができる。
IFFは、畳み込み機能を強化するためにハイレベルなセマンティクスを活用することでクローズドループ最適化を行う。
IFFはCNNベースの物体検出器とプラグアンドプレイ方式で融合でき、計算コストのオーバーヘッドは無視できる。
論文 参考訳(メタデータ) (2020-06-23T02:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。