論文の概要: Weakly-supervised Action Localization via Hierarchical Mining
- arxiv url: http://arxiv.org/abs/2206.11011v1
- Date: Wed, 22 Jun 2022 12:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 15:35:29.647289
- Title: Weakly-supervised Action Localization via Hierarchical Mining
- Title(参考訳): 階層的マイニングによる弱監督型アクションローカライゼーション
- Authors: Jia-Chang Feng, Fa-Ting Hong, Jia-Run Du, Zhongang Qi, Ying Shan,
Xiaohu Qie, Wei-Shi Zheng, Jianping Wu
- Abstract要約: 弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
- 参考スコア(独自算出の注目度): 76.00021423700497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised action localization aims to localize and classify action
instances in the given videos temporally with only video-level categorical
labels. Thus, the crucial issue of existing weakly-supervised action
localization methods is the limited supervision from the weak annotations for
precise predictions. In this work, we propose a hierarchical mining strategy
under video-level and snippet-level manners, i.e., hierarchical supervision and
hierarchical consistency mining, to maximize the usage of the given annotations
and prediction-wise consistency. To this end, a Hierarchical Mining Network
(HiM-Net) is proposed. Concretely, it mines hierarchical supervision for
classification in two grains: one is the video-level existence for ground truth
categories captured by multiple instance learning; the other is the
snippet-level inexistence for each negative-labeled category from the
perspective of complementary labels, which is optimized by our proposed
complementary label learning. As for hierarchical consistency, HiM-Net explores
video-level co-action feature similarity and snippet-level
foreground-background opposition, for discriminative representation learning
and consistent foreground-background separation. Specifically, prediction
variance is viewed as uncertainty to select the pairs with high consensus for
proposed foreground-background collaborative learning. Comprehensive
experimental results show that HiM-Net outperforms existing methods on THUMOS14
and ActivityNet1.3 datasets with large margins by hierarchically mining the
supervision and consistency. Code will be available on GitHub.
- Abstract(参考訳): 弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし分類することを目的としている。
したがって、既存の弱教師付きアクションローカライズ手法の重要な問題は、正確な予測のための弱いアノテーションからの限定的な監督である。
本研究では,ビデオレベルおよびスニペットレベルのマナー,すなわち階層的監督と階層的一貫性のマイニングの下での階層的マイニング戦略を提案し,与えられたアノテーションの使用と予測的一貫性を最大化する。
この目的のために階層的マイニングネットワーク(HiM-Net)を提案する。
具体的には、複数の事例学習で捉えた地上の真理カテゴリの動画レベルの存在と、補完ラベルの観点で各負ラベルカテゴリーのスニペットレベルの存在とを、比較ラベル学習により最適化した2つの粒状分類の階層的監督について検討する。
階層的一貫性について、him-netはビデオレベルのコアクション特徴類似性とスニペットレベルのフォアグラウンド-バックグラウンド対立を探求し、識別表現学習と一貫したフォアグラウンド-バックグラウンド分離を行う。
具体的には,提案するフォアグラウンド・バックグラウンド協調学習において,高いコンセンサスを持つペアを選択するための不確実性として予測分散が考えられる。
総合的な実験結果によると、HiM-NetはTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つ。
コードはGitHubで入手できる。
関連論文リスト
- Hierarchical Action Recognition: A Contrastive Video-Language Approach with Hierarchical Interactions [19.741453194665276]
階層型音声認識の新しい課題を定式化し,階層型認識に適したビデオ言語学習フレームワークを提案する。
具体的には,階層的カテゴリ間の依存関係を符号化し,認識予測にトップダウン制約を適用した。
階層認識に対するアプローチの有効性を実証し,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-05-28T01:17:22Z) - Revisiting Foreground and Background Separation in Weakly-supervised
Temporal Action Localization: A Clustering-based Approach [48.684550829098534]
弱教師付き時間的アクションローカライゼーションは、アクションインスタンスをビデオレベルのアクションラベルのみでローカライズすることを目的としている。
クラスタリングに基づく新しいF&B分離アルゴリズムを提案する。
我々は,THUMOS14,ActivityNet v1.2,v1.3の3つのベンチマークで評価を行った。
論文 参考訳(メタデータ) (2023-12-21T18:57:12Z) - Panoptic Out-of-Distribution Segmentation [11.388678390784195]
連立画素レベルのセマンティック・イン・ディストリビューションとインスタンス予測を用いたアウト・オブ・ディストリビューション分類のためのパノプティカル・アウト・オブ・ディストリビューションを提案する。
データセット、コード、トレーニングされたモデルをhttp://pods.cs.uni-freiburg.deで公開しています。
論文 参考訳(メタデータ) (2023-10-18T08:38:31Z) - Weakly-Supervised Action Localization by Hierarchically-structured
Latent Attention Modeling [19.683714649646603]
弱教師付きアクションローカライゼーションは、ビデオレベルのラベルのみを持つ未トリミングビデオにおけるアクションインスタンスを認識およびローカライズすることを目的としている。
既存のモデルのほとんどはマルチインスタンス学習(MIL)に依存しており、ラベル付きバッグを分類することでラベル付きインスタンスの予測を監督している。
本稿では,特徴セマンティクスの時間的変動を学習するために,新しい注意に基づく階層構造潜在モデルを提案する。
論文 参考訳(メタデータ) (2023-08-19T08:45:49Z) - Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal
Action Localization [98.66318678030491]
微弱に監督された時間的行動ローカライゼーションは、トレーニング中にビデオレベルのカテゴリラベルのみを持つ未トリミングビデオのアクションをローカライズし、認識することを目的としている。
本稿では,提案手法をベースとしたP-MIL(Multiple Instance Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T02:48:04Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Point-Level Temporal Action Localization: Bridging Fully-supervised
Proposals to Weakly-supervised Losses [84.2964408497058]
point-level temporal action localization (ptal) は、各アクションインスタンスに対して1つのタイムスタンプアノテーションで、未トリミングビデオ内のアクションをローカライズすることを目的としている。
既存の手法ではフレームレベルの予測パラダイムを採用し、スパース単一フレームラベルから学習する。
本稿では,ポイントレベルアノテーションの提案に基づく予測パラダイムを検討する。
論文 参考訳(メタデータ) (2020-12-15T12:11:48Z) - Mixup-CAM: Weakly-supervised Semantic Segmentation via Uncertainty
Regularization [73.03956876752868]
我々は、ネットワークがオブジェクトの他の部分に注意を払うことを可能にする、原則的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
具体的には、ミックスアップデータ拡張方式を分類ネットワークに導入し、2つの不確実な正規化項を設計し、ミックスアップ戦略をよりよく扱う。
論文 参考訳(メタデータ) (2020-08-03T21:19:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。