Fugu-MT 論文翻訳(概要): Online Unsupervised Video Object Segmentation via Contrastive Motion Clustering

論文の概要: Online Unsupervised Video Object Segmentation via Contrastive Motion Clustering

arxiv url: http://arxiv.org/abs/2306.12048v3
Date: Wed, 17 Jan 2024 07:47:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 11:30:33.911915
Title: Online Unsupervised Video Object Segmentation via Contrastive Motion Clustering
Title（参考訳）: コントラストモーションクラスタリングによるオンライン教師なしビデオオブジェクトセグメンテーション
Authors: Lin Xi, Weihai Chen, Xingming Wu, Zhong Liu, Zhengguo Li
Abstract要約: オンライン教師なしビデオオブジェクトセグメンテーション(UVOS)は、以前のフレームを入力として使用し、さらに手動のアノテーションを使わずに、一次オブジェクトをストリーミングビデオから自動的に分離する。主要な課題は、モデルに未来へのアクセスがなく、歴史のみに頼らなければならないこと、すなわち、セグメント化マスクがキャプチャされた直後に現在のフレームから予測されることである。本研究では、オンラインUVOSにおいて、視覚的要素が同一であれば群として認識されるという共通の運命原理を利用して、光学的フローを入力として持つ新しいコントラッシブ・モーション・クラスタリングアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 27.265597448266988
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Online unsupervised video object segmentation (UVOS) uses the previous frames as its input to automatically separate the primary object(s) from a streaming video without using any further manual annotation. A major challenge is that the model has no access to the future and must rely solely on the history, i.e., the segmentation mask is predicted from the current frame as soon as it is captured. In this work, a novel contrastive motion clustering algorithm with an optical flow as its input is proposed for the online UVOS by exploiting the common fate principle that visual elements tend to be perceived as a group if they possess the same motion pattern. We build a simple and effective auto-encoder to iteratively summarize non-learnable prototypical bases for the motion pattern, while the bases in turn help learn the representation of the embedding network. Further, a contrastive learning strategy based on a boundary prior is developed to improve foreground and background feature discrimination in the representation learning stage. The proposed algorithm can be optimized on arbitrarily-scale data i.e., frame, clip, dataset) and performed in an online fashion. Experiments on $\textit{DAVIS}_{\textit{16}}$, $\textit{FBMS}$, and $\textit{SegTrackV2}$ datasets show that the accuracy of our method surpasses the previous state-of-the-art (SoTA) online UVOS method by a margin of 0.8%, 2.9%, and 1.1%, respectively. Furthermore, by using an online deep subspace clustering to tackle the motion grouping, our method is able to achieve higher accuracy at $3\times$ faster inference time compared to SoTA online UVOS method, and making a good trade-off between effectiveness and efficiency. Our code is available at https://github.com/xilin1991/ClusterNet.
Abstract（参考訳）: オンライン教師なしビデオオブジェクトセグメンテーション(UVOS)は、以前のフレームを入力として使用し、さらに手動のアノテーションを使わずに、一次オブジェクトをストリーミングビデオから自動的に分離する。主要な課題は、モデルに未来へのアクセスがなく、歴史のみに頼らなければならないこと、すなわち、セグメント化マスクがキャプチャされた直後に現在のフレームから予測されることである。本研究では、オンラインUVOSに対して、同じ動きパターンを持つ場合、視覚的要素が群として認識されるという共通の運命原理を利用して、光学的フローを入力として持つ新しいコントラスト型モーションクラスタリングアルゴリズムを提案する。移動パターンの非学習可能な原型的ベースを反復的に要約するために,単純かつ効果的なオートエンコーダを構築し,そのベースが組込みネットワークの表現を学ぶのに役立つ。さらに、境界事前に基づくコントラスト学習戦略を開発し、表現学習段階における前景と背景特徴の識別を改善する。提案アルゴリズムは任意のスケールのデータ、すなわちフレーム、クリップ、データセットに最適化され、オンライン形式で実行される。 $\textit{DAVIS}_{\textit{16}}$, $\textit{FBMS}$, $\textit{SegTrackV2}$データセットでの実験では、我々のメソッドの精度が、それぞれ0.8%、2.9%、および1.1%の差で、以前の最先端(SoTA)オンラインUVOSメソッドを上回っていることが示されている。さらに,オンラインの深層空間クラスタリングを用いてモーショングルーピングに取り組み,SoTAのオンラインUVOS法と比較して3/times$高速な推定時間を実現し,有効性と効率の良好なトレードオフを実現する。私たちのコードはhttps://github.com/xilin1991/clusternetで利用可能です。

関連論文リスト

DIFFVSGG: Diffusion-Driven Online Video Scene Graph Generation [61.59996525424585]
DIFFVSGGはオンラインのVSGGソリューションで、このタスクを反復的なシーングラフ更新問題とみなしている。オブジェクト分類の復号化、境界ボックス回帰、グラフ生成の3つのタスクを1つの共有特徴埋め込みを用いて統合する。 DIFFVSGGはさらに、後続のフレームの予測が過去のフレームの結果をLCMの条件入力として活用する継続的時間的推論を促進する。
論文参考訳（メタデータ） (2025-03-18T06:49:51Z)
SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。 10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文参考訳（メタデータ） (2024-07-22T08:04:09Z)
Spatio-Temporal Side Tuning Pre-trained Foundation Models for Video-based Pedestrian Attribute Recognition [58.79807861739438]
既存の歩行者認識アルゴリズム(PAR)は主に静的画像に基づいて開発されている。本稿では,時間的情報を完全に活用できるビデオフレームを用いて,人間の属性を理解することを提案する。
論文参考訳（メタデータ） (2024-04-27T14:43:32Z)
Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文参考訳（メタデータ） (2023-11-29T18:47:17Z)
Tsanet: Temporal and Scale Alignment for Unsupervised Video Object Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。 DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文参考訳（メタデータ） (2023-03-08T04:59:43Z)
GOCA: Guided Online Cluster Assignment for Self-Supervised Video Representation Learning [49.69279760597111]
クラスタリングは教師なし学習におけるユビキタスなツールです。既存の自己教師型表現学習手法の多くは、視覚的に支配的な特徴に基づくクラスタサンプルが一般的である。具体的には、各ビューの初期クラスタ割り当てを事前に使用して、他のビューの最終クラスタ割り当てをガイドする、新しいクラスタリング戦略を提案する。
論文参考訳（メタデータ） (2022-07-20T19:26:55Z)
Box Supervised Video Segmentation Proposal Network [3.384080569028146]
本稿では,本質的な映像特性を生かしたボックス管理型映像オブジェクト分割提案ネットワークを提案する。提案手法は,最先端の自己監督ベンチマークを16.4%,6.9%上回る性能を示した。提案手法のロバスト性を実証し,データセットに対する広範なテストと改善を行った。
論文参考訳（メタデータ） (2022-02-14T20:38:28Z)
Self-supervised Video Representation Learning with Cross-Stream Prototypical Contrasting [2.2530496464901106]
ビデオ・クロスストリーム・プロトタイプ・コントラスティング」はRGBと光フロービューの両方から一貫したプロトタイプの割り当てを予測する新しい手法である。最寄りの映像検索と行動認識における最先端の検索結果を得る。
論文参考訳（メタデータ） (2021-06-18T13:57:51Z)
Spatiotemporal Graph Neural Network based Mask Reconstruction for Video Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文参考訳（メタデータ） (2020-12-10T07:57:44Z)
Unsupervised Learning of Video Representations via Dense Trajectory Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文参考訳（メタデータ） (2020-06-28T22:23:03Z)
Learning Fast and Robust Target Models for Video Object Segmentation [83.3382606349118]
ビデオオブジェクトセグメンテーション(VOS)は、ターゲットオブジェクトを定義する初期マスクがテスト時にのみ与えられるため、非常に難しい問題である。それまでのほとんどの場合、第1フレーム上のファイン・チューン・セグメンテーション・ネットワークにアプローチし、非現実的なフレームレートとオーバーフィッティングのリスクをもたらす。本稿では,2つのネットワークコンポーネントからなる新しいVOSアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-02-27T21:58:06Z)
Directional Deep Embedding and Appearance Learning for Fast Video Object Segmentation [11.10636117512819]
本稿では,オンラインファインチューニングを不要とした指向性深層埋め込みとYouTube外見学習(DEmbed)手法を提案する。本手法は,オンラインファインチューニングを使わずに最先端のVOS性能を実現する。
論文参考訳（メタデータ） (2020-02-17T01:51:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。