論文の概要: Coarse-to-Fine Feature Mining for Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2204.03330v1
- Date: Thu, 7 Apr 2022 09:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 13:33:53.925983
- Title: Coarse-to-Fine Feature Mining for Video Semantic Segmentation
- Title(参考訳): ビデオセマンティクスセグメンテーションのための粗粒間特徴マイニング
- Authors: Guolei Sun, Yun Liu, Henghui Ding, Thomas Probst, Luc Van Gool
- Abstract要約: 本研究では,静的コンテキストと動きコンテキストの統一的な表現を学習するためのCFFM手法を提案する。
提案するCFFMは,ビデオセマンティックセグメンテーションの最先端手法に対して好意的に機能する。
- 参考スコア(独自算出の注目度): 87.81673965331463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The contextual information plays a core role in semantic segmentation. As for
video semantic segmentation, the contexts include static contexts and motional
contexts, corresponding to static content and moving content in a video clip,
respectively. The static contexts are well exploited in image semantic
segmentation by learning multi-scale and global/long-range features. The
motional contexts are studied in previous video semantic segmentation. However,
there is no research about how to simultaneously learn static and motional
contexts which are highly correlated and complementary to each other. To
address this problem, we propose a Coarse-to-Fine Feature Mining (CFFM)
technique to learn a unified presentation of static contexts and motional
contexts. This technique consists of two parts: coarse-to-fine feature
assembling and cross-frame feature mining. The former operation prepares data
for further processing, enabling the subsequent joint learning of static and
motional contexts. The latter operation mines useful information/contexts from
the sequential frames to enhance the video contexts of the features of the
target frame. The enhanced features can be directly applied for the final
prediction. Experimental results on popular benchmarks demonstrate that the
proposed CFFM performs favorably against state-of-the-art methods for video
semantic segmentation. Our implementation is available at
https://github.com/GuoleiSun/VSS-CFFM
- Abstract(参考訳): 文脈情報は意味セグメンテーションにおいて中心的な役割を果たす。
ビデオセマンティックセグメンテーションは、静的コンテキストと動きコンテキストを含み、それぞれ静的コンテンツと動画クリップ内の移動コンテンツに対応する。
静的コンテキストは、マルチスケールおよびグローバル/ロングレンジの機能を学ぶことによって、画像セマンティックセグメンテーションにおいてよく利用される。
動きの文脈は、以前のビデオセマンティックセグメンテーションで研究される。
しかし、相互に高い相関性と相補性を持つ静的コンテキストと動作コンテキストを同時に学習する方法は研究されていない。
この問題を解決するために,静的コンテキストと動きコンテキストの統一表現を学習するためのCFFM(Coarse-to-Fine Feature Mining)手法を提案する。
この技術は、粗大な機能集合とクロスフレーム機能マイニングの2つの部分から構成される。
前者の操作は、さらなる処理のためのデータを準備し、静的および運動的コンテキストのその後の共同学習を可能にする。
後者の操作は、シーケンシャルフレームから有用な情報/コンテキストを抽出し、ターゲットフレームの特徴の映像コンテキストを強化する。
拡張された機能は最終予測に直接適用することができる。
提案するCFFMは,ビデオセマンティックセグメンテーションの最先端手法に対して良好に動作することを示す。
実装はhttps://github.com/GuoleiSun/VSS-CFFMで公開しています。
関連論文リスト
- Leveraging Temporal Contextualization for Video Action Recognition [47.8361303269338]
本稿では,TC-CLIP (Temporally Contextualized CLIP) と呼ばれる映像理解のためのフレームワークを提案する。
ビデオの時間的情報注入機構である時間的コンテキスト化(TC)を導入する。
Video-Prompting (VP)モジュールはコンテキストトークンを処理し、テキストのモダリティで情報的なプロンプトを生成する。
論文 参考訳(メタデータ) (2024-04-15T06:24:56Z) - C2F-TCN: A Framework for Semi and Fully Supervised Temporal Action
Segmentation [20.182928938110923]
時間的アクションセグメンテーションタグは、シーケンス内の複数のアクションを含む入力未トリミングビデオの各フレームに対するアクションラベルである。
我々は,デコーダ出力の粗大なアンサンブルを特徴とする,C2F-TCNというエンコーダ-デコーダスタイルのアーキテクチャを提案する。
アーキテクチャは教師付き学習と表現学習の両方に柔軟であることを示す。
論文 参考訳(メタデータ) (2022-12-20T14:53:46Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Global Spectral Filter Memory Network for Video Object Segmentation [33.42697528492191]
本稿では,フレーム内相互作用の促進による半教師付きビデオオブジェクトセグメンテーションについて検討する。
我々は,スペクトル領域における長期空間依存性を学習することにより,フレーム内相互作用を改善するグローバル・スペクトル・フィルタ・メモリ・ネットワーク(GSFM)を提案する。
論文 参考訳(メタデータ) (2022-10-11T16:02:02Z) - Unsupervised Temporal Video Grounding with Deep Semantic Clustering [58.95918952149763]
時間的ビデオグラウンドティングは、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。
本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学べるかどうかを考察する。
ペア化された監視が存在しないことを考慮し,クエリ集合全体からすべての意味情報を活用するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
論文 参考訳(メタデータ) (2022-01-14T05:16:33Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。