論文の概要: Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation
- arxiv url: http://arxiv.org/abs/2404.01518v2
- Date: Thu, 4 Apr 2024 02:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 11:20:41.958548
- Title: Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation
- Title(参考訳): 非教師的行動セグメンテーションのための時間的一貫した不均衡最適輸送
- Authors: Ming Xu, Stephen Gould,
- Abstract要約: 本稿では,長編未編集ビデオに対するアクションセグメンテーションタスクに対する新しいアプローチを提案する。
グロモフ・ワッサーシュタイン問題に先立って時間的一貫性を符号化することにより、時間的に一貫したセグメンテーションをデコードすることができる。
本手法では,ビデオの時間的整合性を達成するための動作順序を知る必要はない。
- 参考スコア(独自算出の注目度): 31.622109513774635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel approach to the action segmentation task for long, untrimmed videos, based on solving an optimal transport problem. By encoding a temporal consistency prior into a Gromov-Wasserstein problem, we are able to decode a temporally consistent segmentation from a noisy affinity/matching cost matrix between video frames and action classes. Unlike previous approaches, our method does not require knowing the action order for a video to attain temporal consistency. Furthermore, our resulting (fused) Gromov-Wasserstein problem can be efficiently solved on GPUs using a few iterations of projected mirror descent. We demonstrate the effectiveness of our method in an unsupervised learning setting, where our method is used to generate pseudo-labels for self-training. We evaluate our segmentation approach and unsupervised learning pipeline on the Breakfast, 50-Salads, YouTube Instructions and Desktop Assembly datasets, yielding state-of-the-art results for the unsupervised video action segmentation task.
- Abstract(参考訳): 本稿では,最適な移動問題の解法を基礎として,長編未編集ビデオのためのアクションセグメンテーションタスクを提案する。
時間的一貫性をGromov-Wasserstein問題に符号化することにより、ビデオフレームとアクションクラス間のノイズ親和性/マッチングコスト行列から時間的整合セグメンテーションをデコードすることができる。
従来の手法とは異なり,ビデオが時間的整合性を達成するためには,動作順序を知る必要はない。
さらに、得られた(融合した)グロモフ=ワッサーシュタイン問題は、プロジェクションミラー降下を数回繰り返してGPU上で効率的に解ける。
自己学習のための擬似ラベルを生成するための教師なし学習環境において,本手法の有効性を実証する。
我々は、Breakfast、50-Salads、YouTube Instructions、Desktop Assemblyデータセットのセグメンテーションアプローチと教師なし学習パイプラインを評価し、教師なしビデオアクションセグメンテーションタスクの最先端結果を得た。
関連論文リスト
- Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Few-Shot Action Recognition with Compromised Metric via Optimal
Transport [31.834843714684343]
少数の画像分類の広い研究にもかかわらず、少数のアクション認識はまだ成熟していません。
これらのアルゴリズムをアクション認識に適用する主な障害の1つは、ビデオの複雑な構造です。
これら2つのソリューションの利点を組み合わせるために、CMOT(Compromised Metric via Optimal Transport)を提案します。
論文 参考訳(メタデータ) (2021-04-08T12:42:05Z) - Learning by Aligning Videos in Time [10.075645944474287]
本稿では,時間的映像アライメントを前提課題として,映像表現を学習するための自己教師型アプローチを提案する。
我々は、エンコーダネットワークをトレーニングするための監視信号として使用できる、時間的アライメント損失と時間的正規化項の新たな組み合わせを利用する。
論文 参考訳(メタデータ) (2021-03-31T17:55:52Z) - Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation [96.67525775629444]
アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
論文 参考訳(メタデータ) (2021-03-20T23:30:01Z) - Semi-Supervised Action Recognition with Temporal Contrastive Learning [50.08957096801457]
2つの異なる速度でラベル付きビデオを用いて2経路の時間的コントラストモデルを学習する。
我々は最先端の半教師付き画像認識手法の映像拡張性能を著しく向上させた。
論文 参考訳(メタデータ) (2021-02-04T17:28:35Z) - Learning Motion Flows for Semi-supervised Instrument Segmentation from
Robotic Surgical Video [64.44583693846751]
本研究は,スパースアノテーションを用いたロボット手術ビデオから半教師楽器のセグメンテーションについて検討する。
生成されたデータペアを利用することで、我々のフレームワークはトレーニングシーケンスの時間的一貫性を回復し、強化することができます。
その結果,本手法は最先端の半教師あり手法よりも大きなマージンで優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-06T02:39:32Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。