論文の概要: Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2309.08020v1
- Date: Thu, 14 Sep 2023 20:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 16:45:06.439726
- Title: Temporal-aware Hierarchical Mask Classification for Video Semantic
Segmentation
- Title(参考訳): 映像意味セグメンテーションのための時間認識階層マスク分類
- Authors: Zhaochong An, Guolei Sun, Zongwei Wu, Hao Tang, Luc Van Gool
- Abstract要約: ビデオセマンティックセグメンテーションデータセットは、ビデオ毎のカテゴリが限られている。
VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
提案手法は,最新のVSSベンチマークVSPWにおいてベルやホイッスルを使わずに,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 62.275143240798236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern approaches have proved the huge potential of addressing semantic
segmentation as a mask classification task which is widely used in
instance-level segmentation. This paradigm trains models by assigning part of
object queries to ground truths via conventional one-to-one matching. However,
we observe that the popular video semantic segmentation (VSS) dataset has
limited categories per video, meaning less than 10% of queries could be matched
to receive meaningful gradient updates during VSS training. This inefficiency
limits the full expressive potential of all queries.Thus, we present a novel
solution THE-Mask for VSS, which introduces temporal-aware hierarchical object
queries for the first time. Specifically, we propose to use a simple two-round
matching mechanism to involve more queries matched with minimal cost during
training while without any extra cost during inference. To support our
more-to-one assignment, in terms of the matching results, we further design a
hierarchical loss to train queries with their corresponding hierarchy of
primary or secondary. Moreover, to effectively capture temporal information
across frames, we propose a temporal aggregation decoder that fits seamlessly
into the mask-classification paradigm for VSS. Utilizing temporal-sensitive
multi-level queries, our method achieves state-of-the-art performance on the
latest challenging VSS benchmark VSPW without bells and whistles.
- Abstract(参考訳): 近代的なアプローチは、インスタンスレベルのセグメンテーションで広く使われているマスク分類タスクとしてセグメンテーションに対処する大きな可能性を証明している。
このパラダイムは、従来の1対1のマッチングを通じてオブジェクトクエリの一部を真理に割り当てることでモデルを訓練する。
しかし、人気ビデオセマンティックセグメンテーション(VSS)データセットにはビデオごとのカテゴリが限られており、VSSトレーニング中に意味のある勾配更新を受けるために、クエリの10%未満がマッチする可能性がある。
この非効率性は、全てのクエリの完全な表現可能性を制限するが、我々は、時間対応の階層型オブジェクトクエリを初めて導入する新しいソリューションThe-Mask for VSSを提案する。
具体的には,単純な2ラウンドマッチング機構を用いて,推論に余計なコストを要さずに,トレーニング中に最小コストでマッチするクエリ数を増やすことを提案する。
より一対一な割り当てをサポートするために、マッチング結果の観点から、プライマリまたはセカンダリの階層でクエリをトレーニングする階層的損失をさらに設計する。
さらに,フレーム間の時間的情報を効果的に捉えるために,VSSのマスク分類パラダイムにシームレスに適合する時間的アグリゲーションデコーダを提案する。
提案手法は時間感応性のあるマルチレベルクエリを用いて,最新のVSSベンチマークVSPWにおいて,ベルやホイッスルを使わずに最先端の性能を実現する。
関連論文リスト
- Hierarchical Multimodal LLMs with Semantic Space Alignment for Enhanced Time Series Classification [4.5939667818289385]
HiTimeは階層的なマルチモーダルモデルであり、時間的情報を大きな言語モデルにシームレスに統合する。
本研究は, 時間的特徴をLCMに組み込むことにより, 時系列解析の進歩に寄与する可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-24T12:32:19Z) - Frequency-based Matcher for Long-tailed Semantic Segmentation [22.199174076366003]
我々は、比較的未探索なタスク設定、長い尾のセマンティックセマンティックセグメンテーション(LTSS)に焦点を当てる。
本稿では,セマンティックセグメンテーション手法と長鎖解の性能を示すために,二値評価システムを提案し,LTSSベンチマークを構築した。
また,1対1のマッチングによって過剰な圧縮問題を解決する周波数ベースのマーカであるLTSSを改善するトランスフォーマーベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-06T09:57:56Z) - LaSagnA: Language-based Segmentation Assistant for Complex Queries [39.620806493454616]
視覚のための大規模言語モデル(vLLM)は、バウンディングボックスやマスクを含む知覚結果を生成する。
本研究では,これらの問題の主な原因が,学習クエリの複雑さの不足であることを認めた。
本稿では,提案フォーマットの直接統合による課題を効果的に解決するための3つの新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-04-12T14:40:45Z) - Video Mask Transfiner for High-Quality Video Instance Segmentation [102.50936366583106]
Video Mask Transfiner (VMT) は、高効率なビデオトランス構造により、微細な高解像度機能を利用することができる。
当社のVMTアーキテクチャに基づいて,反復的トレーニングと自己補正による自動アノテーション改善アプローチを設計する。
我々はVMTとHQ-YTVISの最新の最先端手法、Youtube-VIS、OVIS、BDD100K MOTSを比較した。
論文 参考訳(メタデータ) (2022-07-28T11:13:37Z) - Temporal Saliency Query Network for Efficient Video Recognition [82.52760040577864]
ビデオ認識は、インターネットやモバイルデバイス上でのマルチメディアデータの爆発的な成長に関するホットスポット研究のトピックである。
既存の方法の多くは、クラス固有のサリエンシスコアを意識せずに、サリエントフレームを選択する。
そこで我々は,Saliency Query (TSQ) 機構を提案する。
論文 参考訳(メタデータ) (2022-07-21T09:23:34Z) - Action Quality Assessment with Temporal Parsing Transformer [84.1272079121699]
行動品質評価(AQA)は、作業の理解と解決に重要である。
本稿では,時間的部分表現に包括的特徴を分解する時間的パーシング変換器を提案する。
提案手法は,3つの公開AQAベンチマークにおける先行研究よりもかなりのマージンで優れていた。
論文 参考訳(メタデータ) (2022-07-19T13:29:05Z) - Video Is Graph: Structured Graph Module for Video Action Recognition [34.918667614077805]
ビデオシーケンスをグラフに変換して,時間的フレーム間の直接的な長期的依存関係を求める。
特に、SGMは各ノードの隣人を複数の時間領域に分割し、グローバルな構造情報を抽出する。
報告された性能と分析により、SGMは計算複雑性を小さくして優れた精度を達成できることを示した。
論文 参考訳(メタデータ) (2021-10-12T11:27:29Z) - Target-Aware Object Discovery and Association for Unsupervised Video
Multi-Object Segmentation [79.6596425920849]
本稿では,教師なしビデオマルチオブジェクトセグメンテーションの課題について述べる。
より正確で効率的な時間区分のための新しいアプローチを紹介します。
DAVIS$_17$とYouTube-VISに対する提案手法を評価した結果,セグメント化精度と推論速度の両方において最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-04-10T14:39:44Z) - Learnable Dynamic Temporal Pooling for Time Series Classification [22.931314501371805]
本稿では,セグメントレベルの特徴を集約することにより,隠れ表現の時間的サイズを低減する動的時間的プーリング(DTP)手法を提案する。
時系列全体の分割を複数のセグメントに分割するために,動的時間ゆがみ(dtw)を用いて各時間点を時間順に整列し,セグメントの原型的特徴を示す。
完全連結層と組み合わせたDTP層は、入力時系列内の時間的位置を考慮したさらなる識別的特徴を抽出するのに役立つ。
論文 参考訳(メタデータ) (2021-04-02T08:58:44Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。