論文の概要: Coarse-to-Fine Feature Mining for Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2204.03330v1
- Date: Thu, 7 Apr 2022 09:56:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 13:33:53.925983
- Title: Coarse-to-Fine Feature Mining for Video Semantic Segmentation
- Title(参考訳): ビデオセマンティクスセグメンテーションのための粗粒間特徴マイニング
- Authors: Guolei Sun, Yun Liu, Henghui Ding, Thomas Probst, Luc Van Gool
- Abstract要約: 本研究では,静的コンテキストと動きコンテキストの統一的な表現を学習するためのCFFM手法を提案する。
提案するCFFMは,ビデオセマンティックセグメンテーションの最先端手法に対して好意的に機能する。
- 参考スコア(独自算出の注目度): 87.81673965331463
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The contextual information plays a core role in semantic segmentation. As for
video semantic segmentation, the contexts include static contexts and motional
contexts, corresponding to static content and moving content in a video clip,
respectively. The static contexts are well exploited in image semantic
segmentation by learning multi-scale and global/long-range features. The
motional contexts are studied in previous video semantic segmentation. However,
there is no research about how to simultaneously learn static and motional
contexts which are highly correlated and complementary to each other. To
address this problem, we propose a Coarse-to-Fine Feature Mining (CFFM)
technique to learn a unified presentation of static contexts and motional
contexts. This technique consists of two parts: coarse-to-fine feature
assembling and cross-frame feature mining. The former operation prepares data
for further processing, enabling the subsequent joint learning of static and
motional contexts. The latter operation mines useful information/contexts from
the sequential frames to enhance the video contexts of the features of the
target frame. The enhanced features can be directly applied for the final
prediction. Experimental results on popular benchmarks demonstrate that the
proposed CFFM performs favorably against state-of-the-art methods for video
semantic segmentation. Our implementation is available at
https://github.com/GuoleiSun/VSS-CFFM
- Abstract(参考訳): 文脈情報は意味セグメンテーションにおいて中心的な役割を果たす。
ビデオセマンティックセグメンテーションは、静的コンテキストと動きコンテキストを含み、それぞれ静的コンテンツと動画クリップ内の移動コンテンツに対応する。
静的コンテキストは、マルチスケールおよびグローバル/ロングレンジの機能を学ぶことによって、画像セマンティックセグメンテーションにおいてよく利用される。
動きの文脈は、以前のビデオセマンティックセグメンテーションで研究される。
しかし、相互に高い相関性と相補性を持つ静的コンテキストと動作コンテキストを同時に学習する方法は研究されていない。
この問題を解決するために,静的コンテキストと動きコンテキストの統一表現を学習するためのCFFM(Coarse-to-Fine Feature Mining)手法を提案する。
この技術は、粗大な機能集合とクロスフレーム機能マイニングの2つの部分から構成される。
前者の操作は、さらなる処理のためのデータを準備し、静的および運動的コンテキストのその後の共同学習を可能にする。
後者の操作は、シーケンシャルフレームから有用な情報/コンテキストを抽出し、ターゲットフレームの特徴の映像コンテキストを強化する。
拡張された機能は最終予測に直接適用することができる。
提案するCFFMは,ビデオセマンティックセグメンテーションの最先端手法に対して良好に動作することを示す。
実装はhttps://github.com/GuoleiSun/VSS-CFFMで公開しています。
関連論文リスト
- Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Boosting Weakly-Supervised Temporal Action Localization with Text
Information [94.48602948837664]
本稿では,アクションクラスラベルに基づくテキスト記述を構築するためのテキストセグメンテーション・マイニング(TSM)機構を提案する。
また,VLC (Video-text Language Completion) という生成目的も導入した。
また,提案手法を既存手法にシームレスに適用し,その性能を明確なマージンで向上させることができる。
論文 参考訳(メタデータ) (2023-05-01T00:07:09Z) - A Class-wise Non-salient Region Generalized Framework for Video Semantic
Segmentation [17.628105171587002]
ビデオセマンティックセグメンテーション(VSS)は、実環境の連続的な性質のために動的なシーンを扱うのに有用である。
本稿では,VGSSタスクのためのクラスワイド非塩分領域一般化(CNSG)フレームワークを提案する。
CNSG フレームワークが VGSS および IGSS タスクに大幅な改善をもたらすことを示す実験を行った。
論文 参考訳(メタデータ) (2022-12-29T02:27:15Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Unsupervised Temporal Video Grounding with Deep Semantic Clustering [58.95918952149763]
時間的ビデオグラウンドティングは、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。
本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学べるかどうかを考察する。
ペア化された監視が存在しないことを考慮し,クエリ集合全体からすべての意味情報を活用するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
論文 参考訳(メタデータ) (2022-01-14T05:16:33Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - CTNet: Context-based Tandem Network for Semantic Segmentation [77.4337867789772]
本研究では,空間コンテキスト情報とチャネルコンテキスト情報とを対話的に探索し,新しいコンテキストベースタンデムネットワーク(CTNet)を提案する。
セマンティックセグメンテーションのための学習表現の性能をさらに向上するため、2つのコンテキストモジュールの結果を適応的に統合する。
論文 参考訳(メタデータ) (2021-04-20T07:33:11Z) - Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network [27.792054915363106]
クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。
ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。
クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
論文 参考訳(メタデータ) (2021-02-09T11:27:59Z) - Incorporating Domain Knowledge To Improve Topic Segmentation Of Long
MOOC Lecture Videos [4.189643331553923]
本稿では,長い講義ビデオ内に存在するさまざまなコヒーレントなトピックを自動的に検出するアルゴリズムを提案する。
音声からテキストへの書き起こしにおける言語モデルを用いて,ビデオ全体の暗黙的な意味を捉える。
また、インストラクターが結合し、教育中に異なる概念を結びつける方法を捉えることができるドメイン知識も活用します。
論文 参考訳(メタデータ) (2020-12-08T13:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。