論文の概要: Unsupervised Learning Consensus Model for Dynamic Texture Videos
Segmentation
- arxiv url: http://arxiv.org/abs/2006.16177v1
- Date: Mon, 29 Jun 2020 16:40:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 14:47:37.197455
- Title: Unsupervised Learning Consensus Model for Dynamic Texture Videos
Segmentation
- Title(参考訳): 動的テクスチャビデオセグメンテーションのための教師なし学習合意モデル
- Authors: Lazhar Khelifi and Max Mignotte
- Abstract要約: 動的テクスチャのセグメンテーションのための効果的な教師なし学習コンセンサスモデルを提案する。
提案モデルでは,分類対象画素の周辺部における再量子化局所2値パターン(LBP)ヒストグラムの値の集合を特徴として用いた。
挑戦的なSynthDBデータセットで実施された実験は、ULCMが大幅に高速で、コーディングが簡単で、単純で、パラメータが限られていることを示している。
- 参考スコア(独自算出の注目度): 12.462608802359936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic texture (DT) segmentation, and video processing in general, is
currently widely dominated by methods based on deep neural networks that
require the deployment of a large number of layers. Although this parametric
approach has shown superior performances for the dynamic texture segmentation,
all current deep learning methods suffer from a significant main weakness
related to the lack of a sufficient reference annotation to train models and to
make them functional. This study explores the unsupervised segmentation
approach that can be used in the absence of training data to segment new
videos. We present an effective unsupervised learning consensus model for the
segmentation of dynamic texture (ULCM). This model is designed to merge
different segmentation maps that contain multiple and weak quality regions in
order to achieve a more accurate final result of segmentation. The diverse
labeling fields required for the combination process are obtained by a
simplified grouping scheme applied to an input video (on the basis of a three
orthogonal planes: xy, yt and xt). In the proposed model, the set of values of
the requantized local binary patterns (LBP) histogram around the pixel to be
classified are used as features which represent both the spatial and temporal
information replicated in the video. Experiments conducted on the challenging
SynthDB dataset show that, contrary to current dynamic texture segmentation
approaches that either require parameter estimation or a training step, ULCM is
significantly faster, easier to code, simple and has limited parameters.
Further qualitative experiments based on the YUP++ dataset prove the
efficiently and competitively of the ULCM.
- Abstract(参考訳): 動的テクスチャ(DT)セグメンテーションとビデオ処理は、現在、多数のレイヤの配置を必要とするディープニューラルネットワークに基づく手法によって広く支配されている。
このパラメトリックなアプローチは、動的テクスチャセグメンテーションに優れたパフォーマンスを示しているが、現在のディープラーニング手法はすべて、トレーニングモデルへの十分な参照アノテーションの欠如と、それらを機能的にすることに関する大きな弱点に苦しんでいる。
本研究では,新しいビデオのセグメンテーションを行うためのトレーニングデータがない場合の教師なしセグメンテーション手法について検討する。
本稿では,動的テクスチャ(ulcm)のセグメンテーションに有効な教師なし学習コンセンサスモデルを提案する。
このモデルは、セグメンテーションの最終結果をより正確に達成するために、複数の品質領域と弱い領域を含む異なるセグメンテーションマップをマージするように設計されている。
合成プロセスに必要な多様なラベリングフィールドは、入力ビデオ(xy、yt、xtの3つの直交平面に基づいて)に適用される簡易なグループ化スキームによって得られる。
提案モデルでは,映像に再現される空間情報と時間情報の両方を表す特徴として,分類対象画素の周辺部におけるLBP(requantized local binary pattern)ヒストグラムの値のセットを用いる。
挑戦的なSynthDBデータセットで実施された実験によると、パラメータ推定やトレーニングステップを必要とする現在の動的テクスチャセグメンテーションアプローチとは対照的に、ULCMは大幅に高速で、コーディングが容易で、単純で、限られたパラメータを持つ。
YUP++データセットに基づくさらなる定性的実験は、ULCMの効率と競争性を証明している。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Video-SwinUNet: Spatio-temporal Deep Learning Framework for VFSS
Instance Segmentation [10.789826145990016]
本稿では,医用ビデオセグメンテーションのためのディープラーニングフレームワークを提案する。
本フレームワークは, 時間次元にまたがる近傍のフレームから特徴を明示的に抽出する。
テンポラリな機能ブレンダーを組み込んで、ハイレベルな時間的特徴をトークン化し、Swin Transformerを介してエンコードされた強力なグローバル機能を形成する。
論文 参考訳(メタデータ) (2023-02-22T12:09:39Z) - Efficient Unsupervised Video Object Segmentation Network Based on Motion
Guidance [1.5736899098702974]
本稿では,モーションガイダンスに基づく映像オブジェクト分割ネットワークを提案する。
モデルは、デュアルストリームネットワーク、モーションガイダンスモジュール、マルチスケールプログレッシブフュージョンモジュールを含む。
実験により,提案手法の優れた性能が証明された。
論文 参考訳(メタデータ) (2022-11-10T06:13:23Z) - Dynamic Latent Separation for Deep Learning [67.62190501599176]
機械学習の中核的な問題は、複雑なデータに対するモデル予測のための表現力のある潜在変数を学習することである。
本稿では,表現性を向上し,部分的解釈を提供し,特定のアプリケーションに限定されないアプローチを開発する。
論文 参考訳(メタデータ) (2022-10-07T17:56:53Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Multi-scale and Cross-scale Contrastive Learning for Semantic
Segmentation [5.281694565226513]
セグメンテーションネットワークによって抽出されたマルチスケール特徴の識別能力を高めるために,コントラスト学習を適用した。
まず、エンコーダのマルチスケール表現を共通の特徴空間にマッピングすることにより、教師付き局所言語制約の新しい形式をインスタンス化する。
論文 参考訳(メタデータ) (2022-03-25T01:24:24Z) - Dynamic Dual Sampling Module for Fine-Grained Semantic Segmentation [27.624291416260185]
動的親和性モデリングを行い,意味的コンテキストを局所的な詳細に伝達する動的デュアルサンプリングモジュール(DDSM)を提案する。
City と Camvid のデータセットによる実験結果から,提案手法の有効性と有効性について検証した。
論文 参考訳(メタデータ) (2021-05-25T04:25:47Z) - Reviving Iterative Training with Mask Guidance for Interactive
Segmentation [8.271859911016719]
クリックに基づくインタラクティブセグメンテーションに関する最近の研究は、様々な推論時間最適化スキームを用いて最先端の結果を示している。
従来のステップのセグメンテーションマスクを用いた,クリックベースのインタラクティブセグメンテーションのための簡単なフィードフォワードモデルを提案する。
COCOとLVISの組み合わせで訓練されたモデルと、多様で高品質のアノテーションは、既存のすべてのモデルよりも優れたパフォーマンスを示しています。
論文 参考訳(メタデータ) (2021-02-12T15:44:31Z) - Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。
それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。
本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-27T21:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。