論文の概要: The Blessings of Unlabeled Background in Untrimmed Videos
- arxiv url: http://arxiv.org/abs/2103.13183v1
- Date: Wed, 24 Mar 2021 13:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-25 13:56:45.531282
- Title: The Blessings of Unlabeled Background in Untrimmed Videos
- Title(参考訳): 未公開映像における未収録背景の祝福
- Authors: Yuan Liu, Jingyuan Chen, Zhenfang Chen, Bing Deng, Jianqiang Huang,
Hanwang Zhang
- Abstract要約: Weakly-supervised Temporal Action Localization (WTAL)は、トレーニング中に利用可能なビデオレベルのアクションラベルのみを使用して、アクションインスタンスの間隔を検出することを目的としています。
重要な課題は、ビデオレベルでも照合されていない背景セグメントから関心のセグメントを区別する方法です。
そこで本稿では,PCA をベースとした時空間平滑化 PCA (TS-PCA) の創始者を提案する。
- 参考スコア(独自算出の注目度): 66.99259967869065
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Weakly-supervised Temporal Action Localization (WTAL) aims to detect the
intervals of action instances with only video-level action labels available
during training. The key challenge is how to distinguish the segments of
interest from the background segments, which are unlabelled even on the
video-level. While previous works treat the background as "curses", we consider
it as "blessings". Specifically, we first use causal analysis to point out that
the common localization errors are due to the unobserved and un-enumerated
confounder that resides ubiquitously in visual recognition. Then, we propose a
Temporal Smoothing PCA-based (TS-PCA) deconfounder, which exploits the
unlabelled background to model an observed substitute for the confounder, to
remove the confounding effect. Note that the proposed deconfounder is
model-agnostic and non-intrusive, and hence can be applied in any WTAL method
without modification. Through extensive experiments on four state-of-the-art
WTAL methods, we show that the deconfounder can improve all of them on the
public datasets: THUMOS-14 and ActivityNet-1.3.
- Abstract(参考訳): WTAL(Weakly-supervised Temporal Action Localization)は、トレーニング中に利用可能なビデオレベルのアクションラベルのみを使用して、アクションインスタンスの間隔を検出することを目的としている。
重要な課題は、ビデオレベルにおいても、バックグラウンドセグメントと関心セグメントを区別する方法だ。
以前の作品では背景を"curses"として扱っていたが、私たちはそれを"blessings"と捉えている。
具体的には、まず因果解析を用いて、一般的なローカライゼーションエラーは、視覚認識においてユビキタスに存在する、観測されていない、列挙されていない共同創設者によるものである、と指摘する。
そこで,提案する時間的平滑化pca-based (ts-pca) デコンビネータは,既定の背景を利用してコンビネータの代替をモデル化し,コンビネータのコンビネータ効果を除去している。
提案したデコンファウンダはモデルに依存しない非侵襲的であり、従って任意のWTAL法に適用できる。
最先端の4つのwtalメソッドに関する広範な実験を通じて、deconfounderが公開データセットであるthums-14とactivitynet-1.3でこれらすべてを改善できることを実証する。
関連論文リスト
- Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Harnessing Temporal Causality for Advanced Temporal Action Detection [53.654457142657236]
本稿では,因果的注意と因果的マンバを組み合わせたCausalTADを提案する。
Ego4D Challenge 2024では,EPIC-Kitchens Challenge 2024では行動認識,行動検出,音声によるインタラクション検出トラックで1位,Ego4D Challenge 2024ではMoment Queriesトラックで1位にランクインした。
論文 参考訳(メタデータ) (2024-07-25T06:03:02Z) - DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。
既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。
本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文 参考訳(メタデータ) (2023-04-01T08:06:43Z) - Stacked Temporal Attention: Improving First-person Action Recognition by
Emphasizing Discriminative Clips [39.29955809641396]
ファーストパーソンビデオの背景やノイズの多いフレームは、学習プロセス中にアクション認識モデルに注意をそらすことができる。
従来の研究は、時間的注意を払ってこの問題に対処しようとしたが、全ビデオのグローバルな文脈を考慮できなかった。
本稿では,ビデオクリップ間のグローバルな知識に基づいて時間的注意を計算するための,シンプルで効果的なスタックド・テンポラル・アテンション・モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-02T08:02:35Z) - Video-based Person Re-identification without Bells and Whistles [49.51670583977911]
ビデオベースの人物再識別(Re-ID)は、異なるカメラの下で歩行者を特定するために、ビデオトラッカーとトリミングされたビデオフレームをマッチングすることを目的としている。
従来の方法による不完全な検出と追跡の結果から, 収穫したトラックレットの空間的, 時間的不整合が生じている。
本稿では,深層学習に基づくトラックレットの検出と追跡を適用することで,これらの予期せぬノイズを効果的に低減できる簡易な再検出リンク(DL)モジュールを提案する。
論文 参考訳(メタデータ) (2021-05-22T10:17:38Z) - A Self-Reasoning Framework for Anomaly Detection Using Video-Level
Labels [17.615297975503648]
監視ビデオにおける異常事象の検出は、画像およびビデオ処理コミュニティの間で困難かつ実践的な研究課題である。
本稿では、ビデオレベルラベルのみを用いて自己推論方式で訓練されたディープニューラルネットワークに基づく、弱い教師付き異常検出フレームワークを提案する。
提案するフレームワークは,UCF-crimeやShanghaiTech,Ped2など,公開されている実世界の異常検出データセット上で評価されている。
論文 参考訳(メタデータ) (2020-08-27T02:14:15Z) - Labelling unlabelled videos from scratch with multi-modal
self-supervision [82.60652426371936]
ビデオデータセットの教師なしラベリングは、強力な機能エンコーダから解放されない。
人間のアノテーションを使わずにビデオデータセットの擬似ラベリングを可能にする新しいクラスタリング手法を提案する。
広範囲な分析により、結果として得られたクラスタは、真理の人間ラベルと高いセマンティックオーバーラップがあることが示されている。
論文 参考訳(メタデータ) (2020-06-24T12:28:17Z) - Weakly-supervised Temporal Action Localization by Uncertainty Modeling [34.27514534497615]
弱教師付き時間的行動局所化は、ビデオレベルラベルのみを用いて、時間的行動クラスの検出を学習することを目的としている。
本稿では, 背景フレームの非一貫性について, 分布外サンプルとしてモデル化した新たな視点を提案する。
論文 参考訳(メタデータ) (2020-06-12T08:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。