論文の概要: Weakly-supervised Temporal Action Localization by Uncertainty Modeling
- arxiv url: http://arxiv.org/abs/2006.07006v3
- Date: Thu, 17 Dec 2020 07:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 03:17:14.242032
- Title: Weakly-supervised Temporal Action Localization by Uncertainty Modeling
- Title(参考訳): 不確実性モデリングによる弱教師付き時間行動定位
- Authors: Pilhyeon Lee, Jinglu Wang, Yan Lu, Hyeran Byun
- Abstract要約: 弱教師付き時間的行動局所化は、ビデオレベルラベルのみを用いて、時間的行動クラスの検出を学習することを目的としている。
本稿では, 背景フレームの非一貫性について, 分布外サンプルとしてモデル化した新たな視点を提案する。
- 参考スコア(独自算出の注目度): 34.27514534497615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly-supervised temporal action localization aims to learn detecting
temporal intervals of action classes with only video-level labels. To this end,
it is crucial to separate frames of action classes from the background frames
(i.e., frames not belonging to any action classes). In this paper, we present a
new perspective on background frames where they are modeled as
out-of-distribution samples regarding their inconsistency. Then, background
frames can be detected by estimating the probability of each frame being
out-of-distribution, known as uncertainty, but it is infeasible to directly
learn uncertainty without frame-level labels. To realize the uncertainty
learning in the weakly-supervised setting, we leverage the multiple instance
learning formulation. Moreover, we further introduce a background entropy loss
to better discriminate background frames by encouraging their in-distribution
(action) probabilities to be uniformly distributed over all action classes.
Experimental results show that our uncertainty modeling is effective at
alleviating the interference of background frames and brings a large
performance gain without bells and whistles. We demonstrate that our model
significantly outperforms state-of-the-art methods on the benchmarks, THUMOS'14
and ActivityNet (1.2 & 1.3). Our code is available at
https://github.com/Pilhyeon/WTAL-Uncertainty-Modeling.
- Abstract(参考訳): 弱教師付き時間的行動局所化は,ビデオレベルラベルのみを用いて時間的行動区間を検出することを目的としている。
この目的のために、アクションクラスのフレームをバックグラウンドフレーム(つまり、どのアクションクラスにも属さないフレーム)から分離することが不可欠である。
本稿では,背景フレームの非一貫性に関する分散サンプルとしてモデル化された背景フレームについて,新しい視点を提案する。
フレームレベルのラベルを使わずに直接不確実性を学習することは不可能であり,不確実性として知られる各フレームの分布外確率を推定することにより,背景フレームを検出することができる。
弱教師付き設定における不確実性学習を実現するために,複数のインスタンス学習定式化を利用する。
さらに,すべてのアクションクラスに一様に分布する分布内(動作)確率を奨励することにより,背景フレームの識別性を向上する背景エントロピー損失も導入する。
実験の結果,不確実性モデリングは背景フレームの干渉を軽減する効果があり,ベルやホイッスルを使わずに大きな性能向上をもたらすことがわかった。
我々は,ベンチマークのTHUMOS'14とActivityNet(1.2と1.3)において,我々のモデルが最先端の手法を大幅に上回ることを示す。
私たちのコードはhttps://github.com/pilhyeon/wtal-uncertainty-modelingで利用可能です。
関連論文リスト
- Improving Training and Inference of Face Recognition Models via Random
Temperature Scaling [45.33976405587231]
ランダム温度スケーリング(RTS)は,信頼度の高い顔認識アルゴリズムを学習するために提案される。
RTSは、顔認識とアウト・オブ・ディストリビューション検出タスクの両方で最高のパフォーマンスを達成することができる。
提案されたモジュールは軽量であり、モデルに無視できるコストしか加えない。
論文 参考訳(メタデータ) (2022-12-02T08:00:03Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。
我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。
実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文 参考訳(メタデータ) (2021-08-05T15:58:25Z) - Semi-supervised Facial Action Unit Intensity Estimation with Contrastive
Learning [54.90704746573636]
提案手法では,手動でキーフレームを選択する必要はなく,2%の注釈付きフレームで最先端の結果を生成できる。
提案手法は, ランダムに選択したデータに対してわずか2%の費用で作業した場合に, 既存の手法よりも優れていることを実験的に検証した。
論文 参考訳(メタデータ) (2020-11-03T17:35:57Z) - Uncertainty-Aware Weakly Supervised Action Detection from Untrimmed
Videos [82.02074241700728]
本稿では,ビデオフレームラベルのみを用いてトレーニングした,禁止レベルの行動認識モデルを提案する。
人1人当たりの手法は、複数のインスタンス学習フレームワーク内の大規模な画像データセットで訓練されている。
標準的な多重インスタンス学習の仮定では、各バッグには、指定されたラベルを持つ少なくとも1つのインスタンスが含まれているという仮定が無効である場合、どのようにメソッドを適用するかを示す。
論文 参考訳(メタデータ) (2020-07-21T10:45:05Z) - Weakly-Supervised Action Localization by Generative Attention Modeling [65.03548422403061]
弱教師付き時間的行動ローカライゼーションは、ビデオレベルの行動ラベルのみを利用できるアクションローカライゼーションモデルを学習する問題である。
条件付き変分自動エンコーダ(VAE)を用いたフレームアテンションのクラス非依存型条件付き確率をモデル化する。
注意に関する条件確率を最大化することにより、アクションフレームと非アクションフレームは適切に分離される。
論文 参考訳(メタデータ) (2020-03-27T14:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。