論文の概要: Deep Common Feature Mining for Efficient Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2403.02689v1
- Date: Tue, 5 Mar 2024 06:17:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 16:00:49.382889
- Title: Deep Common Feature Mining for Efficient Video Semantic Segmentation
- Title(参考訳): 効率的なビデオセマンティックセグメンテーションのためのDeep Common Feature Mining
- Authors: Yaoyan Zheng, Hongyu Yang, Di Huang
- Abstract要約: ビデオセマンティックセグメンテーションのためのDeep Common Feature Mining(DCFM)を提案する。
DCFMは、機能を2つの補完的なコンポーネントに明示的に分解する。
本手法は精度と効率のバランスが優れていることを示す。
- 参考スコア(独自算出の注目度): 29.054945307605816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in video semantic segmentation have made substantial
progress by exploiting temporal correlations. Nevertheless, persistent
challenges, including redundant computation and the reliability of the feature
propagation process, underscore the need for further innovation. In response,
we present Deep Common Feature Mining (DCFM), a novel approach strategically
designed to address these challenges by leveraging the concept of feature
sharing. DCFM explicitly decomposes features into two complementary components.
The common representation extracted from a key-frame furnishes essential
high-level information to neighboring non-key frames, allowing for direct
re-utilization without feature propagation. Simultaneously, the independent
feature, derived from each video frame, captures rapidly changing information,
providing frame-specific clues crucial for segmentation. To achieve such
decomposition, we employ a symmetric training strategy tailored for sparsely
annotated data, empowering the backbone to learn a robust high-level
representation enriched with common information. Additionally, we incorporate a
self-supervised loss function to reinforce intra-class feature similarity and
enhance temporal consistency. Experimental evaluations on the VSPW and
Cityscapes datasets demonstrate the effectiveness of our method, showing a
superior balance between accuracy and efficiency.
- Abstract(参考訳): 近年,ビデオセマンティックセグメンテーションの進歩は時間的相関を利用して大きく進展している。
それでも、冗長な計算や機能伝播プロセスの信頼性といった永続的な課題は、さらなるイノベーションの必要性を強調している。
そこで我々は,機能共有の概念を活用することで,これらの課題に戦略的に対処する新しいアプローチであるDeep Common Feature Mining(DCFM)を提案する。
dcfmは機能を2つの補完コンポーネントに明示的に分解する。
キーフレームから抽出された共通表現は、隣接する非キーフレームに必須の高レベル情報を付与する。
同時に、各ビデオフレームから派生した独立機能は、急速に変化する情報をキャプチャし、セグメンテーションに不可欠なフレーム固有の手がかりを提供する。
このような分解を実現するために,分散アノテートデータに適した対称なトレーニング戦略を採用し,共通情報に富んだ堅牢な高レベル表現をバックボーンに学習させる。
さらに,クラス内特徴の類似性を強化し,時間的一貫性を高めるために,自己教師付き損失関数を組み込んだ。
vspwとcityscapesデータセットの実験的評価により,本手法の有効性が示され,精度と効率のバランスが向上した。
関連論文リスト
- Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - Feature Decoupling-Recycling Network for Fast Interactive Segmentation [79.22497777645806]
近年のインタラクティブセグメンテーション手法では,入力としてソースイメージ,ユーザガイダンス,従来予測されていたマスクを反復的に取り込んでいる。
本稿では,本質的な相違点に基づいてモデリングコンポーネントを分離するFDRN(Feature Decoupling-Recycling Network)を提案する。
論文 参考訳(メタデータ) (2023-08-07T12:26:34Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - On Exploring Pose Estimation as an Auxiliary Learning Task for
Visible-Infrared Person Re-identification [66.58450185833479]
本稿では,Pose Estimationを補助学習タスクとして活用して,エンドツーエンドフレームワークにおけるVI-ReIDタスクを支援する。
これら2つのタスクを相互に有利な方法で共同でトレーニングすることにより、高品質なモダリティ共有とID関連の特徴を学習する。
2つのベンチマークVI-ReIDデータセットの実験結果から,提案手法は一定のマージンで最先端の手法を継続的に改善することが示された。
論文 参考訳(メタデータ) (2022-01-11T09:44:00Z) - Dynamic Feature Regularized Loss for Weakly Supervised Semantic
Segmentation [37.43674181562307]
動的に更新される浅度と深度の両方の機能を利用する新たな正規化損失を提案する。
提案手法は,新しい最先端性能を実現し,他の手法よりも6%以上のmIoU増加率で優れたマージンを達成している。
論文 参考訳(メタデータ) (2021-08-03T05:11:00Z) - Robust Representation Learning via Perceptual Similarity Metrics [18.842322467828502]
Contrastive Input Morphing (CIM) はデータの入力空間変換を学習する表現学習フレームワークである。
CIMは他の相互情報に基づく表現学習技術と相補的であることを示す。
論文 参考訳(メタデータ) (2021-06-11T21:45:44Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Multi-Granularity Reference-Aided Attentive Feature Aggregation for
Video-based Person Re-identification [98.7585431239291]
ビデオベースの人物再識別は、同じ人物をビデオクリップ間でマッチングすることを目的としている。
本稿では,マルチグラニュラリティ参照属性集約モジュールMG-RAFAを提案する。
本フレームワークは,3つのベンチマークデータセット上での最先端のアブレーション性能を実現する。
論文 参考訳(メタデータ) (2020-03-27T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。