Fugu-MT 論文翻訳(概要): Coarse-to-Fine Feature Mining for Video Semantic Segmentation

論文の概要: Coarse-to-Fine Feature Mining for Video Semantic Segmentation

arxiv url: http://arxiv.org/abs/2204.03330v1
Date: Thu, 7 Apr 2022 09:56:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-08 13:33:53.925983
Title: Coarse-to-Fine Feature Mining for Video Semantic Segmentation
Title（参考訳）: ビデオセマンティクスセグメンテーションのための粗粒間特徴マイニング
Authors: Guolei Sun, Yun Liu, Henghui Ding, Thomas Probst, Luc Van Gool
Abstract要約: 本研究では,静的コンテキストと動きコンテキストの統一的な表現を学習するためのCFFM手法を提案する。提案するCFFMは,ビデオセマンティックセグメンテーションの最先端手法に対して好意的に機能する。
参考スコア（独自算出の注目度）: 87.81673965331463
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The contextual information plays a core role in semantic segmentation. As for video semantic segmentation, the contexts include static contexts and motional contexts, corresponding to static content and moving content in a video clip, respectively. The static contexts are well exploited in image semantic segmentation by learning multi-scale and global/long-range features. The motional contexts are studied in previous video semantic segmentation. However, there is no research about how to simultaneously learn static and motional contexts which are highly correlated and complementary to each other. To address this problem, we propose a Coarse-to-Fine Feature Mining (CFFM) technique to learn a unified presentation of static contexts and motional contexts. This technique consists of two parts: coarse-to-fine feature assembling and cross-frame feature mining. The former operation prepares data for further processing, enabling the subsequent joint learning of static and motional contexts. The latter operation mines useful information/contexts from the sequential frames to enhance the video contexts of the features of the target frame. The enhanced features can be directly applied for the final prediction. Experimental results on popular benchmarks demonstrate that the proposed CFFM performs favorably against state-of-the-art methods for video semantic segmentation. Our implementation is available at https://github.com/GuoleiSun/VSS-CFFM
Abstract（参考訳）: 文脈情報は意味セグメンテーションにおいて中心的な役割を果たす。ビデオセマンティックセグメンテーションは、静的コンテキストと動きコンテキストを含み、それぞれ静的コンテンツと動画クリップ内の移動コンテンツに対応する。静的コンテキストは、マルチスケールおよびグローバル/ロングレンジの機能を学ぶことによって、画像セマンティックセグメンテーションにおいてよく利用される。動きの文脈は、以前のビデオセマンティックセグメンテーションで研究される。しかし、相互に高い相関性と相補性を持つ静的コンテキストと動作コンテキストを同時に学習する方法は研究されていない。この問題を解決するために,静的コンテキストと動きコンテキストの統一表現を学習するためのCFFM(Coarse-to-Fine Feature Mining)手法を提案する。この技術は、粗大な機能集合とクロスフレーム機能マイニングの2つの部分から構成される。前者の操作は、さらなる処理のためのデータを準備し、静的および運動的コンテキストのその後の共同学習を可能にする。後者の操作は、シーケンシャルフレームから有用な情報/コンテキストを抽出し、ターゲットフレームの特徴の映像コンテキストを強化する。拡張された機能は最終予測に直接適用することができる。提案するCFFMは,ビデオセマンティックセグメンテーションの最先端手法に対して良好に動作することを示す。実装はhttps://github.com/GuoleiSun/VSS-CFFMで公開しています。

関連論文リスト

AFANet: Adaptive Frequency-Aware Network for Weakly-Supervised Few-Shot Semantic Segmentation [37.9826204492371]
少ないショット学習は、いくつかのサンプルから学んだ事前知識を活用することで、新しい概念を認識することを目的としている。弱教師付き少数ショットセマンティックセマンティックセグメンテーションのための適応周波数認識ネットワーク(AFANet)を提案する。
論文参考訳（メタデータ） (2024-12-23T14:20:07Z)
Leveraging Temporal Contextualization for Video Action Recognition [47.8361303269338]
本稿では,TC-CLIP (Temporally Contextualized CLIP) と呼ばれる映像理解のためのフレームワークを提案する。ビデオの時間的情報注入機構である時間的コンテキスト化(TC)を導入する。 Video-Prompting (VP)モジュールはコンテキストトークンを処理し、テキストのモダリティで情報的なプロンプトを生成する。
論文参考訳（メタデータ） (2024-04-15T06:24:56Z)
C2F-TCN: A Framework for Semi and Fully Supervised Temporal Action Segmentation [20.182928938110923]
時間的アクションセグメンテーションタグは、シーケンス内の複数のアクションを含む入力未トリミングビデオの各フレームに対するアクションラベルである。我々は,デコーダ出力の粗大なアンサンブルを特徴とする,C2F-TCNというエンコーダ-デコーダスタイルのアーキテクチャを提案する。アーキテクチャは教師付き学習と表現学習の両方に柔軟であることを示す。
論文参考訳（メタデータ） (2022-12-20T14:53:46Z)
Fine-grained Semantic Alignment Network for Weakly Supervised Temporal Language Grounding [148.46348699343991]
時間的言語接地は、自然言語記述に基づいてビデオセグメントを未編集ビデオにローカライズすることを目的としている。既存の弱教師付きメソッドのほとんどは、候補セグメントを生成し、MILベースのフレームワークを通じて、相互アライメントを学ぶ。我々は、弱い教師付きTLGのための新しい候補のないフレームワーク、細粒度セマンティックアライメントネットワーク(FSAN)を提案する。
論文参考訳（メタデータ） (2022-10-21T13:10:27Z)
Global Spectral Filter Memory Network for Video Object Segmentation [33.42697528492191]
本稿では,フレーム内相互作用の促進による半教師付きビデオオブジェクトセグメンテーションについて検討する。我々は,スペクトル領域における長期空間依存性を学習することにより,フレーム内相互作用を改善するグローバル・スペクトル・フィルタ・メモリ・ネットワーク(GSFM)を提案する。
論文参考訳（メタデータ） (2022-10-11T16:02:02Z)
Unsupervised Temporal Video Grounding with Deep Semantic Clustering [58.95918952149763]
時間的ビデオグラウンドティングは、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学べるかどうかを考察する。ペア化された監視が存在しないことを考慮し,クエリ集合全体からすべての意味情報を活用するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
論文参考訳（メタデータ） (2022-01-14T05:16:33Z)
Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。 FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文参考訳（メタデータ） (2022-01-06T02:05:32Z)
Context-aware Biaffine Localizing Network for Temporal Sentence Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。 TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文参考訳（メタデータ） (2021-03-22T03:13:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。