論文の概要: Learning Local and Global Temporal Contexts for Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2204.03330v2
- Date: Tue, 9 Apr 2024 15:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 20:55:40.659646
- Title: Learning Local and Global Temporal Contexts for Video Semantic Segmentation
- Title(参考訳): ビデオセマンティックセグメンテーションのための局所的・グローバル的時間文脈の学習
- Authors: Guolei Sun, Yun Liu, Henghui Ding, Min Wu, Luc Van Gool,
- Abstract要約: コンテキスト情報はビデオセマンティックセグメンテーション(VSS)のコア役割を果たす
本稿では,VSSの文脈を2つにまとめる:ローカル時間文脈(LTC)とグローバル時間文脈(GTC)。
LTCの統一表現を学習するためのCFFM手法を提案する。
- 参考スコア(独自算出の注目度): 80.01394521812969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contextual information plays a core role for video semantic segmentation (VSS). This paper summarizes contexts for VSS in two-fold: local temporal contexts (LTC) which define the contexts from neighboring frames, and global temporal contexts (GTC) which represent the contexts from the whole video. As for LTC, it includes static and motional contexts, corresponding to static and moving content in neighboring frames, respectively. Previously, both static and motional contexts have been studied. However, there is no research about simultaneously learning static and motional contexts (highly complementary). Hence, we propose a Coarse-to-Fine Feature Mining (CFFM) technique to learn a unified presentation of LTC. CFFM contains two parts: Coarse-to-Fine Feature Assembling (CFFA) and Cross-frame Feature Mining (CFM). CFFA abstracts static and motional contexts, and CFM mines useful information from nearby frames to enhance target features. To further exploit more temporal contexts, we propose CFFM++ by additionally learning GTC from the whole video. Specifically, we uniformly sample certain frames from the video and extract global contextual prototypes by k-means. The information within those prototypes is mined by CFM to refine target features. Experimental results on popular benchmarks demonstrate that CFFM and CFFM++ perform favorably against state-of-the-art methods. Our code is available at https://github.com/GuoleiSun/VSS-CFFM
- Abstract(参考訳): コンテキスト情報は、ビデオセマンティックセグメンテーション(VSS)において中心的な役割を果たす。
本稿では、隣接するフレームからコンテキストを定義するローカル時間文脈(LTC)と、ビデオ全体からコンテキストを表現するグローバル時間文脈(GTC)の2つをまとめた。
LTCに関しては、静的コンテキストと動きコンテキストが含まれており、それぞれ隣接するフレームの静的コンテンツと移動コンテンツに対応している。
これまでは、静的コンテキストと運動コンテキストの両方が研究されてきた。
しかし、静的文脈と運動文脈を同時に学習する研究はない(非常に相補的)。
そこで本研究では,LCCの統一表現を学習するためのCFFM(Coarse-to-Fine Feature Mining)手法を提案する。
CFFMには、CFFA(Coarse-to-Fine Feature Assembling)とCFM(Cross-frame Feature Mining)の2つの部分がある。
CFFAは静的なコンテキストと動きのコンテキストを抽象化し、CFMは近くのフレームから有用な情報を抽出してターゲット機能を強化する。
より時間的コンテキストを活用するために、ビデオ全体からGTCを学習することでCFFM++を提案する。
具体的には、ビデオから特定のフレームを一様にサンプリングし、k-meansでグローバルな文脈的プロトタイプを抽出する。
これらのプロトタイプの情報は、ターゲット機能を洗練するためにCFMによって採掘される。
CFFM と CFFM++ が最先端の手法に対して好適に動作することを示す。
私たちのコードはhttps://github.com/GuoleiSun/VSS-CFFMで利用可能です。
関連論文リスト
- Leveraging Temporal Contextualization for Video Action Recognition [47.8361303269338]
本稿では,TC-CLIP (Temporally Contextualized CLIP) と呼ばれる映像理解のためのフレームワークを提案する。
ビデオの時間的情報注入機構である時間的コンテキスト化(TC)を導入する。
Video-Prompting (VP)モジュールはコンテキストトークンを処理し、テキストのモダリティで情報的なプロンプトを生成する。
論文 参考訳(メタデータ) (2024-04-15T06:24:56Z) - C2F-TCN: A Framework for Semi and Fully Supervised Temporal Action
Segmentation [20.182928938110923]
時間的アクションセグメンテーションタグは、シーケンス内の複数のアクションを含む入力未トリミングビデオの各フレームに対するアクションラベルである。
我々は,デコーダ出力の粗大なアンサンブルを特徴とする,C2F-TCNというエンコーダ-デコーダスタイルのアーキテクチャを提案する。
アーキテクチャは教師付き学習と表現学習の両方に柔軟であることを示す。
論文 参考訳(メタデータ) (2022-12-20T14:53:46Z) - Fine-grained Semantic Alignment Network for Weakly Supervised Temporal
Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。
既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。
我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:10:27Z) - Global Spectral Filter Memory Network for Video Object Segmentation [33.42697528492191]
本稿では,フレーム内相互作用の促進による半教師付きビデオオブジェクトセグメンテーションについて検討する。
我々は,スペクトル領域における長期空間依存性を学習することにより,フレーム内相互作用を改善するグローバル・スペクトル・フィルタ・メモリ・ネットワーク(GSFM)を提案する。
論文 参考訳(メタデータ) (2022-10-11T16:02:02Z) - Unsupervised Temporal Video Grounding with Deep Semantic Clustering [58.95918952149763]
時間的ビデオグラウンドティングは、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。
本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学べるかどうかを考察する。
ペア化された監視が存在しないことを考慮し,クエリ集合全体からすべての意味情報を活用するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
論文 参考訳(メタデータ) (2022-01-14T05:16:33Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。