論文の概要: A Class-wise Non-salient Region Generalized Framework for Video Semantic
Segmentation
- arxiv url: http://arxiv.org/abs/2212.14154v1
- Date: Thu, 29 Dec 2022 02:27:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 16:30:21.931012
- Title: A Class-wise Non-salient Region Generalized Framework for Video Semantic
Segmentation
- Title(参考訳): ビデオ意味セグメンテーションのためのクラス別非salient領域一般化フレームワーク
- Authors: Yuhang Zhang, Shishun Tian, Muxin Liao, Zhengyu Zhang, Wenbin Zou,
Chen Xu
- Abstract要約: ビデオセマンティックセグメンテーション(VSS)は、実環境の連続的な性質のために動的なシーンを扱うのに有用である。
本稿では,VGSSタスクのためのクラスワイド非塩分領域一般化(CNSG)フレームワークを提案する。
CNSG フレームワークが VGSS および IGSS タスクに大幅な改善をもたらすことを示す実験を行った。
- 参考スコア(独自算出の注目度): 17.628105171587002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video semantic segmentation (VSS) is beneficial for dealing with dynamic
scenes due to the continuous property of the real-world environment. On the one
hand, some methods alleviate the predicted inconsistent problem between
continuous frames. On the other hand, other methods employ the previous frame
as the prior information to assist in segmenting the current frame. Although
the previous methods achieve superior performances on the independent and
identically distributed (i.i.d) data, they can not generalize well on other
unseen domains. Thus, we explore a new task, the video generalizable semantic
segmentation (VGSS) task that considers both continuous frames and domain
generalization. In this paper, we propose a class-wise non-salient region
generalized (CNSG) framework for the VGSS task. Concretely, we first define the
class-wise non-salient feature, which describes features of the class-wise
non-salient region that carry more generalizable information. Then, we propose
a class-wise non-salient feature reasoning strategy to select and enhance the
most generalized channels adaptively. Finally, we propose an inter-frame
non-salient centroid alignment loss to alleviate the predicted inconsistent
problem in the VGSS task. We also extend our video-based framework to the
image-based generalizable semantic segmentation (IGSS) task. Experiments
demonstrate that our CNSG framework yields significant improvement in the VGSS
and IGSS tasks.
- Abstract(参考訳): ビデオセマンティックセグメンテーション(VSS)は、実環境の連続的な性質のために動的なシーンを扱うのに有用である。
一方,連続フレーム間の予測の不整合問題を緩和する手法もある。
一方、他の手法では、前のフレームを先行情報として使用し、現在のフレームのセグメンテーションを支援する。
従来の手法は、独立かつ同一に分散された(すなわちd)データ上で優れた性能を達成するが、他の未知の領域ではうまく一般化できない。
そこで本研究では,連続フレームとドメイン一般化の両方を考慮した新しいタスクであるvgss(video generalizable semantic segmentation)について検討する。
本稿では,VGSSタスクのためのクラスワイド非塩分領域一般化(CNSG)フレームワークを提案する。
具体的には、より一般化可能な情報を運ぶクラスワイズ非サリエント領域の特徴を記述するクラスワイズ非サリエント特徴を最初に定義する。
そこで我々は,最も一般化されたチャネルを適応的に選択し,拡張する,クラスワイドな特徴推論戦略を提案する。
最後に,VGSSタスクにおける予測不整合問題を緩和するために,フレーム間非正則なセントロイドアライメント損失を提案する。
また、ビデオベースのフレームワークを画像ベース汎用セマンティックセマンティックセグメンテーション(IGSS)タスクに拡張する。
CNSG フレームワークが VGSS および IGSS タスクを大幅に改善することを示す実験を行った。
関連論文リスト
- General and Task-Oriented Video Segmentation [60.58054218592606]
GvSegは、4つの異なるビデオセグメンテーションタスクに対処するための一般的なビデオセグメンテーションフレームワークである。
GvSegはセグメントターゲットに対する全体論的アンタングルとモデリングを提供し、外観、位置、形状の観点からそれらを徹底的に検証する。
7つのゴールド標準ベンチマークデータセットに関する大規模な実験は、GvSegが既存の専門/一般のソリューションをすべて超越していることを示している。
論文 参考訳(メタデータ) (2024-07-09T04:21:38Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - Embedding Generalized Semantic Knowledge into Few-Shot Remote Sensing Segmentation [26.542268630980814]
リモートセンシング(RS)画像のためのFew-shot segmentation (FSS)は、限られた注釈付きサンプルからのサポート情報を活用して、新しいクラスのクエリセグメンテーションを実現する。
従来の取り組みは、制約された支援サンプルの集合からセグメント化を導く視覚的手がかりをマイニングすることに集中している。
本稿では,一般的な意味知識を効果的に活用する全体論的意味埋め込み(HSE)手法を提案する。
論文 参考訳(メタデータ) (2024-05-22T14:26:04Z) - OMH: Structured Sparsity via Optimally Matched Hierarchy for Unsupervised Semantic Segmentation [69.37484603556307]
Un Semantic segmenting (USS)は、事前に定義されたラベルに頼ることなく、イメージをセグメント化する。
上記の問題を同時に解決するために,OMH (Optimally Matched Hierarchy) という新しいアプローチを導入する。
我々のOMHは既存のUSS法と比較して教師なしセグメンテーション性能がよい。
論文 参考訳(メタデータ) (2024-03-11T09:46:41Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Boundary-aware Self-supervised Learning for Video Scene Segmentation [20.713635723315527]
シーンセグメンテーション(英: Video scene segmentation)は、ビデオ内のシーン境界を時間的に局所化するタスクである。
本稿では,3つの境界対応プレテキストタスク,ショットシーンマッチング,コンテキストグループマッチング,擬似境界予測を紹介する。
我々はMovieNet-SSegベンチマークの最先端性を実現する。
論文 参考訳(メタデータ) (2022-01-14T02:14:07Z) - Domain Adaptive Video Segmentation via Temporal Consistency
Regularization [32.77436219094282]
本稿では,時間的整合性正規化(TCR)によりビデオ内の領域ギャップに対処するドメイン適応型ビデオセグメンテーションネットワークであるDA-VSNを提案する。
ひとつはクロスドメインTCRで、ターゲットフレームの予測を、(アノテートされたソースデータから派生した)ソースフレームと同様の時間的一貫性を持つように誘導する。
2つ目はドメイン内TCRで、ターゲットフレームの信頼できない予測を、ターゲットフレームの自信のある予測と同様の時間的一貫性を持つように誘導する。
論文 参考訳(メタデータ) (2021-07-23T02:50:42Z) - Context-aware Biaffine Localizing Network for Temporal Sentence
Grounding [61.18824806906945]
本論文では時間文接地(TSG)の問題について述べる。
TSGは、文章クエリによって、未トリムのビデオから特定のセグメントの時間境界を特定することを目指しています。
ビデオ内の開始と終了の全てのインデックスをバイアフィン機構で同時にスコア付けする,新しいローカリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-22T03:13:05Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Generalized Few-shot Semantic Segmentation [68.69434831359669]
本稿では,GFS-Seg(Generalized Few-Shot Semantic)と呼ばれる新しいベンチマークを導入する。
GFS-セグにおいて、先行する最先端の一般化が不足していることを示す最初の研究である。
本研究では,1)支援サンプルから共起前の知識を活用すること,2)各クエリ画像の内容に基づいて条件付き情報に動的に拡張することにより,性能を著しく向上するコンテキスト認識型プロトタイプ学習(CAPL)を提案する。
論文 参考訳(メタデータ) (2020-10-11T10:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。