論文の概要: Revisiting Foreground and Background Separation in Weakly-supervised
Temporal Action Localization: A Clustering-based Approach
- arxiv url: http://arxiv.org/abs/2312.14138v1
- Date: Thu, 21 Dec 2023 18:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 13:28:58.664620
- Title: Revisiting Foreground and Background Separation in Weakly-supervised
Temporal Action Localization: A Clustering-based Approach
- Title(参考訳): 弱教師付き時間行動定位における前景と背景分離の再検討-クラスタリングに基づくアプローチ
- Authors: Qinying Liu, Zilei Wang, Shenghai Rong, Junjie Li, Yixin Zhang
- Abstract要約: 弱教師付き時間的アクションローカライゼーションは、アクションインスタンスをビデオレベルのアクションラベルのみでローカライズすることを目的としている。
クラスタリングに基づく新しいF&B分離アルゴリズムを提案する。
我々は,THUMOS14,ActivityNet v1.2,v1.3の3つのベンチマークで評価を行った。
- 参考スコア(独自算出の注目度): 48.684550829098534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-supervised temporal action localization aims to localize action
instances in videos with only video-level action labels. Existing methods
mainly embrace a localization-by-classification pipeline that optimizes the
snippet-level prediction with a video classification loss. However, this
formulation suffers from the discrepancy between classification and detection,
resulting in inaccurate separation of foreground and background (F\&B)
snippets. To alleviate this problem, we propose to explore the underlying
structure among the snippets by resorting to unsupervised snippet clustering,
rather than heavily relying on the video classification loss. Specifically, we
propose a novel clustering-based F\&B separation algorithm. It comprises two
core components: a snippet clustering component that groups the snippets into
multiple latent clusters and a cluster classification component that further
classifies the cluster as foreground or background. As there are no
ground-truth labels to train these two components, we introduce a unified
self-labeling mechanism based on optimal transport to produce high-quality
pseudo-labels that match several plausible prior distributions. This ensures
that the cluster assignments of the snippets can be accurately associated with
their F\&B labels, thereby boosting the F\&B separation. We evaluate our method
on three benchmarks: THUMOS14, ActivityNet v1.2 and v1.3. Our method achieves
promising performance on all three benchmarks while being significantly more
lightweight than previous methods. Code is available at
https://github.com/Qinying-Liu/CASE
- Abstract(参考訳): 弱教師付き時間的アクションローカライゼーションは、アクションインスタンスをビデオレベルのアクションラベルのみでローカライズすることを目的としている。
既存の手法は主に、ビデオ分類損失を伴うスニペットレベルの予測を最適化するローカライズ・バイ・クラス化パイプラインを採用している。
しかし、この定式化は分類と検出の相違に悩まされ、前景と背景(F\&B)スニペットの不正確な分離をもたらす。
この問題を軽減するために,ビデオ分類の損失に大きく依存するのではなく,教師なしスニペットクラスタリングを用いて,スニペットの基盤構造を検討することを提案する。
具体的には,クラスタリングに基づくF\&B分離アルゴリズムを提案する。
このコンポーネントは、スニペットを複数の潜在クラスタにグループ化するスニペットクラスタリングコンポーネントと、クラスタをフォアグラウンドまたはバックグラウンドとしてさらに分類するクラスタ分類コンポーネントの2つのコアコンポーネントで構成されている。
これら2つのコンポーネントを訓練するための基礎的なラベルが存在しないため、最適輸送に基づく統一的な自己ラベル機構を導入し、複数の既成分布に適合する高品質な擬似ラベルを生成する。
これにより、スニペットのクラスタ割り当てがF\&Bラベルと正確に関連付けられ、F\&B分離が促進される。
我々は,THUMOS14,ActivityNet v1.2,v1.3の3つのベンチマークで評価を行った。
本手法は,従来の手法よりもはるかに軽量でありながら,3つのベンチマークで有望な性能を実現する。
コードはhttps://github.com/Qinying-Liu/CASEで入手できる。
関連論文リスト
- Densify Your Labels: Unsupervised Clustering with Bipartite Matching for
Weakly Supervised Point Cloud Segmentation [42.144991202299934]
本稿では,単に「全シーン」アノテーションから「ポイント毎」ラベルを予測する,ポイントクラウドに対する弱教師付きセマンティックセマンティックセマンティックセマンティクス手法を提案する。
私たちの中核となる考え方は、擬似ラベルを保守的な方法で作成することで、シーンレベルのラベルをポイントクラウドの各ポイントに伝播させることです。
我々は,ScanNet と S3DIS のデータセット上での手法の評価を行い,その有効性を実証し,完全な教師付き手法に匹敵する結果が得られることを示した。
論文 参考訳(メタデータ) (2023-12-11T19:18:17Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - PDiscoNet: Semantically consistent part discovery for fine-grained
recognition [62.12602920807109]
画像レベルのクラスラベルのみを用いて,対象部品の発見を推奨する先行情報とともにPDiscoNetを提案する。
CUB,CelebA,PartImageNet で得られた結果から,提案手法は従来手法よりもかなり優れた部分発見性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-06T17:19:29Z) - Contrastive Bootstrapping for Label Refinement [34.55195008779178]
通路のラベルを反復的に洗練するための軽量なコントラストクラスタリングに基づくブートストラップ法を提案する。
NYTと20Newsの実験は、我々の手法が最先端の手法よりも大きなマージンで優れていることを示している。
論文 参考訳(メタデータ) (2023-06-07T15:49:04Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z) - Exploring Category-correlated Feature for Few-shot Image Classification [27.13708881431794]
本稿では,従来の知識として,新しいクラスとベースクラスのカテゴリ相関を探索し,シンプルで効果的な特徴補正手法を提案する。
提案手法は, 広く使用されている3つのベンチマークにおいて, 一定の性能向上が得られる。
論文 参考訳(メタデータ) (2021-12-14T08:25:24Z) - Channel DropBlock: An Improved Regularization Method for Fine-Grained
Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。
本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T09:03:02Z) - Predictive K-means with local models [0.028675177318965035]
予測クラスタリングは、2つの世界のベストを獲得しようとします。
この手法を用いて2つの新しいアルゴリズムを提案し、予測性能に競争力があることを様々なデータセットで示す。
論文 参考訳(メタデータ) (2020-12-16T10:49:36Z) - Fine-Grained Visual Classification with Efficient End-to-end
Localization [49.9887676289364]
本稿では,エンド・ツー・エンドの設定において,分類ネットワークと融合可能な効率的なローカライゼーションモジュールを提案する。
我々は,CUB200-2011,Stanford Cars,FGVC-Aircraftの3つのベンチマークデータセット上で,新しいモデルを評価する。
論文 参考訳(メタデータ) (2020-05-11T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。