論文の概要: Learning Temporal Distribution and Spatial Correlation Towards Universal
Moving Object Segmentation
- arxiv url: http://arxiv.org/abs/2304.09949v4
- Date: Fri, 8 Mar 2024 00:00:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 23:48:05.203880
- Title: Learning Temporal Distribution and Spatial Correlation Towards Universal
Moving Object Segmentation
- Title(参考訳): 普遍移動物体セグメンテーションにおける時間分布と空間相関の学習
- Authors: Guanfang Dong, Chenqiu Zhao, Xichen Pan, Anup Basu
- Abstract要約: 本稿では,時空間分布と空間相関(LTS)の学習手法を提案する。
提案手法では,時間画素からの分布を,シーン非依存のセグメンテーションのための欠陥反復分布学習(DIDL)ネットワークで学習する。
提案手法は、パラメータが固定された多様で複雑な自然シーンのほとんどすべてのビデオに対してよく機能する。
- 参考スコア(独自算出の注目度): 8.807766029291901
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The goal of moving object segmentation is separating moving objects from
stationary backgrounds in videos. One major challenge in this problem is how to
develop a universal model for videos from various natural scenes since previous
methods are often effective only in specific scenes. In this paper, we propose
a method called Learning Temporal Distribution and Spatial Correlation (LTS)
that has the potential to be a general solution for universal moving object
segmentation. In the proposed approach, the distribution from temporal pixels
is first learned by our Defect Iterative Distribution Learning (DIDL) network
for a scene-independent segmentation. Notably, the DIDL network incorporates
the use of an improved product distribution layer that we have newly derived.
Then, the Stochastic Bayesian Refinement (SBR) Network, which learns the
spatial correlation, is proposed to improve the binary mask generated by the
DIDL network. Benefiting from the scene independence of the temporal
distribution and the accuracy improvement resulting from the spatial
correlation, the proposed approach performs well for almost all videos from
diverse and complex natural scenes with fixed parameters. Comprehensive
experiments on standard datasets including LASIESTA, CDNet2014, BMC, SBMI2015
and 128 real world videos demonstrate the superiority of proposed approach
compared to state-of-the-art methods with or without the use of deep learning
networks. To the best of our knowledge, this work has high potential to be a
general solution for moving object segmentation in real world environments. The
code and real-world videos can be found on GitHub
https://github.com/guanfangdong/LTS-UniverisalMOS.
- Abstract(参考訳): 移動対象セグメンテーションの目標は、動画の静止背景から移動対象を分離することである。
この問題の1つの大きな課題は、従来の手法が特定の場面でのみ有効であることから、様々な自然シーンからのビデオのユニバーサルモデルを開発する方法である。
本稿では,普遍移動物体のセグメンテーションの汎用解となる可能性を持つ時間分布・空間相関学習法(lts)を提案する。
提案手法では,時間画素からの分布をシーン非依存のセグメンテーションのためのDefect Iterative Distribution Learning (DIDL)ネットワークで学習する。
特に、DIDLネットワークは、新しく派生した製品流通層の改善を取り入れています。
次に,空間相関を学習する確率ベイズ補充(SBR)ネットワークを提案し,DIDLネットワークが生成する二項マスクを改善する。
時間分布のシーン独立性と空間相関による精度の向上から, 提案手法は, パラメータが固定された多様で複雑な自然シーンのほとんどすべての映像に対して良好に動作する。
LASIESTA、CDNet2014、BMC、SBMI2015、および128の現実世界ビデオを含む標準データセットに関する包括的な実験は、ディープラーニングネットワークの使用の有無に関わらず、最先端の手法と比較して提案手法の優位性を示す。
我々の知る限り、この研究は現実世界の環境においてオブジェクトセグメンテーションを動かすための一般的な解決策となる可能性が高い。
コードと実際のビデオはGitHub https://github.com/guanfangdong/LTS-UniverisalMOSで見ることができる。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Global Motion Understanding in Large-Scale Video Object Segmentation [0.499320937849508]
ビデオ理解の他領域からの知識を大規模学習と組み合わせることで,複雑な状況下での映像オブジェクト(VOS)の堅牢性を向上させることができることを示す。
すなわち,大規模な半教師付きビデオオブジェクトを改善するために,シーンのグローバルな動きの知識を統合することに集中する。
我々は,動作理解における既存の知識を活用して,よりスムーズな伝搬とより正確なマッチングを行う,半教師付きビデオオブジェクトのアーキテクチャであるWarpFormerを提案する。
論文 参考訳(メタデータ) (2024-05-11T15:09:22Z) - Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Panoptic Out-of-Distribution Segmentation [11.388678390784195]
連立画素レベルのセマンティック・イン・ディストリビューションとインスタンス予測を用いたアウト・オブ・ディストリビューション分類のためのパノプティカル・アウト・オブ・ディストリビューションを提案する。
データセット、コード、トレーニングされたモデルをhttp://pods.cs.uni-freiburg.deで公開しています。
論文 参考訳(メタデータ) (2023-10-18T08:38:31Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Group Contextualization for Video Recognition [80.3842253625557]
グループ文脈化(GC)は、2D-CNN(TSN)とTSMの性能を高める。
GCは4つの異なるコンテキストを並列に埋め込む。
グループコンテキスト化は、2D-CNN(例えばTSN)のパフォーマンスを最先端のビデオネットワークに匹敵するレベルまで向上させる。
論文 参考訳(メタデータ) (2022-03-18T01:49:40Z) - Video Salient Object Detection via Adaptive Local-Global Refinement [7.723369608197167]
ビデオ・サリエント・オブジェクト検出(VSOD)は多くの視覚アプリケーションにおいて重要な課題である。
vsodのための適応型局所的グローバルリファインメントフレームワークを提案する。
重み付け手法は特徴相関を更に活用し,ネットワークにより識別的な特徴表現を学習させることができることを示す。
論文 参考訳(メタデータ) (2021-04-29T14:14:11Z) - Unsupervised Learning Consensus Model for Dynamic Texture Videos
Segmentation [12.462608802359936]
動的テクスチャのセグメンテーションのための効果的な教師なし学習コンセンサスモデルを提案する。
提案モデルでは,分類対象画素の周辺部における再量子化局所2値パターン(LBP)ヒストグラムの値の集合を特徴として用いた。
挑戦的なSynthDBデータセットで実施された実験は、ULCMが大幅に高速で、コーディングが簡単で、単純で、パラメータが限られていることを示している。
論文 参考訳(メタデータ) (2020-06-29T16:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。