論文の概要: Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation
- arxiv url: http://arxiv.org/abs/2103.11264v2
- Date: Tue, 23 Mar 2021 08:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-24 11:38:20.598837
- Title: Temporally-Weighted Hierarchical Clustering for Unsupervised Action
Segmentation
- Title(参考訳): 教師なしアクションセグメンテーションのための時間重み付き階層クラスタリング
- Authors: M. Saquib Sarfraz, Naila Murray, Vivek Sharma, Ali Diba, Luc Van Gool,
Rainer Stiefelhagen
- Abstract要約: アクションセグメンテーションとは、ビデオにおける意味的に一貫した視覚概念の境界を推測することを指す。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
- 参考スコア(独自算出の注目度): 96.67525775629444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action segmentation refers to inferring boundaries of semantically consistent
visual concepts in videos and is an important requirement for many video
understanding tasks. For this and other video understanding tasks, supervised
approaches have achieved encouraging performance but require a high volume of
detailed frame-level annotations. We present a fully automatic and unsupervised
approach for segmenting actions in a video that does not require any training.
Our proposal is an effective temporally-weighted hierarchical clustering
algorithm that can group semantically consistent frames of the video. Our main
finding is that representing a video with a 1-nearest neighbor graph by taking
into account the time progression is sufficient to form semantically and
temporally consistent clusters of frames where each cluster may represent some
action in the video. Additionally, we establish strong unsupervised baselines
for action segmentation and show significant performance improvements over
published unsupervised methods on five challenging action segmentation
datasets. Our approach also outperforms weakly-supervised methods by large
margins on 4 of these datasets. Interestingly, we also achieve better results
than many fully-supervised methods that have reported results on these
datasets. Our code is available at
https://github.com/ssarfraz/FINCH-Clustering/tree/master/TW-FINCH
- Abstract(参考訳): アクションセグメンテーション(action segmentation)とは、ビデオにおける意味的に一貫した視覚概念の境界を推測することであり、多くのビデオ理解タスクにおいて重要な要件である。
これと他のビデオ理解タスクのために、監督されたアプローチはパフォーマンスを奨励するが、フレームレベルの詳細なアノテーションを必要とする。
ビデオ中のセグメンテーション動作に対して,トレーニングを必要としない完全自動かつ教師なしのアプローチを提案する。
提案手法は,ビデオの意味的に一貫性のあるフレームをグループ化できる効果的な時間重み付き階層クラスタリングアルゴリズムである。
我々の主な発見は、時間進行を考慮し、1-nearestの隣のグラフでビデオを表現することで、各クラスタがビデオ内の何らかのアクションを表現できる、意味的かつ時間的に一貫したフレームのクラスタを形成するのに十分であるということです。
さらに、アクションセグメンテーションのための強力な教師なしベースラインを確立し、5つの挑戦的アクションセグメンテーションデータセット上の教師なしメソッドよりも優れたパフォーマンス改善を示す。
また,これら4つのデータセットにおいて,弱教師付きメソッドを大きなマージンで上回る手法を提案する。
興味深いことに、これらのデータセットで結果を報告した多くの完全教師付き手法よりも優れた結果が得られる。
私たちのコードはhttps://github.com/ssarfraz/FINCH-Clustering/tree/master/TW-FINCHで利用可能です。
関連論文リスト
- Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - Self-supervised Object-Centric Learning for Videos [39.02148880719576]
実世界のシーケンスで複数のオブジェクトをセグメント化するための、最初の完全に教師なしの手法を提案する。
オブジェクト中心学習フレームワークは,各フレーム上のスロットにオブジェクトを空間的に結合し,これらのスロットをフレーム間で関連付ける。
提案手法は,YouTubeビデオにおける複雑・高多様性クラスの複数インスタンスの分割に成功している。
論文 参考訳(メタデータ) (2023-10-10T18:03:41Z) - Tracking Anything with Decoupled Video Segmentation [87.07258378407289]
我々はデカップリングビデオセグメンテーションアプローチ(DEVA)を開発した。
タスク固有のイメージレベルセグメンテーションと、クラス/タスク非依存の双方向の時間的伝搬で構成されている。
この分離された定式化は、複数のデータスカースタスクにおけるエンドツーエンドのアプローチと良好に比較できることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:59:41Z) - Learning Referring Video Object Segmentation from Weak Annotation [78.45828085350936]
RVOS(Referring Video Object segmentation)は、対象物を記述する文に基づいて、対象物をすべてのビデオフレームにセグメント化することを目的としたタスクである。
そこで本研究では, RVOS に対する十分な監視を提供しながら, アノテーションの労力を 8 倍に削減する新たなアノテーション方式を提案する。
私たちのスキームは、最初にオブジェクトが現れるフレームのマスクと、残りのフレームのバウンディングボックスのみを必要とする。
論文 参考訳(メタデータ) (2023-08-04T06:50:52Z) - TAEC: Unsupervised Action Segmentation with Temporal-Aware Embedding and
Clustering [27.52568444236988]
本稿では,教師なしの動画シーケンスからアクションクラスを学習するための教師なしアプローチを提案する。
特に,相対時間予測,特徴再構成,シーケンス・ツー・シーケンス学習を組み合わせた時間的埋め込みネットワークを提案する。
識別されたクラスタに基づいて、ビデオは意味論的に意味のあるアクションクラスに対応するコヒーレントな時間セグメントにデコードする。
論文 参考訳(メタデータ) (2023-03-09T10:46:23Z) - Unsupervised Action Segmentation with Self-supervised Feature Learning
and Co-occurrence Parsing [32.66011849112014]
時間的アクションセグメンテーションは、ビデオの各フレームをアクションラベルで分類するタスクである。
本研究では,ラベル付けされていないビデオのコーパスで動作する自己教師型手法を探索し,ビデオ全体にわたる時間的セグメントのセットを予測する。
我々は,行動の構造に基づくサブアクション間の相関を捉えるだけでなく,そのサブアクションの時間的軌跡を正確かつ一般的な方法で推定する,新しい共起動作解析アルゴリズムであるCAPを開発した。
論文 参考訳(メタデータ) (2021-05-29T00:29:40Z) - Generating Masks from Boxes by Mining Spatio-Temporal Consistencies in
Videos [159.02703673838639]
フレーム毎のバウンディングボックスアノテーションからセグメンテーションマスクを生成する手法を動画で紹介します。
得られた正確なマスクを用いて、ビデオオブジェクトセグメンテーション(VOS)ネットワークの弱い教師付きトレーニングを行う。
追加データは、VOSとより困難なトラッキングドメインの両方で最先端の結果をもたらす大幅に優れた一般化パフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-01-06T18:56:24Z) - Unsupervised Learning of Video Representations via Dense Trajectory
Clustering [86.45054867170795]
本稿では,ビデオにおける行動認識のための表現の教師なし学習の課題に対処する。
まず、このクラスの2つのトップパフォーマンス目標(インスタンス認識と局所集約)を適用することを提案する。
有望な性能を観察するが、定性的解析により、学習した表現が動きのパターンを捉えないことを示す。
論文 参考訳(メタデータ) (2020-06-28T22:23:03Z) - Hierarchical Attention Network for Action Segmentation [45.19890687786009]
イベントの時間的セグメンテーションは、ビデオにおける人間の行動の自動認識のための重要なタスクであり、前駆体である。
我々は、時間とともに行動間の関係をよりよく学習できる、エンドツーエンドの教師あり学習手法を提案する。
我々は,MERLショッピング,50サラダ,ジョージア技術エゴセントリックデータセットなど,公開ベンチマークデータセットの課題を評価する。
論文 参考訳(メタデータ) (2020-05-07T02:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。