論文の概要: Convex Combination Consistency between Neighbors for Weakly-supervised Action Localization
- arxiv url: http://arxiv.org/abs/2205.00400v3
- Date: Fri, 3 May 2024 15:17:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 18:35:59.277969
- Title: Convex Combination Consistency between Neighbors for Weakly-supervised Action Localization
- Title(参考訳): 弱監視行動局所化のための近隣住民間の凸結合性
- Authors: Qinying Liu, Zilei Wang, Ruoxi Chen, Zhilin Li,
- Abstract要約: 我々は、近隣住民間の凸結合一貫性(C$3$BN)という新しいWTALアプローチを提案する。
C$3$BNは、隣接するスニペット間の多様性を高めるマイクロデータ拡張戦略と、マクロ-マイクロ整合性正規化の2つの重要な要素で構成されている。
ビデオレベルとポイントレベルの監督を行うWTALの各種ベースライン上でのC$3$BNの有効性を実験的に実証した。
- 参考スコア(独自算出の注目度): 26.63463867095924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-supervised temporal action localization (WTAL) intends to detect action instances with only weak supervision, e.g., video-level labels. The current~\textit{de facto} pipeline locates action instances by thresholding and grouping continuous high-score regions on temporal class activation sequences. In this route, the capacity of the model to recognize the relationships between adjacent snippets is of vital importance which determines the quality of the action boundaries. However, it is error-prone since the variations between adjacent snippets are typically subtle, and unfortunately this is overlooked in the literature. To tackle the issue, we propose a novel WTAL approach named Convex Combination Consistency between Neighbors (C$^3$BN). C$^3$BN consists of two key ingredients: a micro data augmentation strategy that increases the diversity in-between adjacent snippets by convex combination of adjacent snippets, and a macro-micro consistency regularization that enforces the model to be invariant to the transformations~\textit{w.r.t.} video semantics, snippet predictions, and snippet representations. Consequently, fine-grained patterns in-between adjacent snippets are enforced to be explored, thereby resulting in a more robust action boundary localization. Experimental results demonstrate the effectiveness of C$^3$BN on top of various baselines for WTAL with video-level and point-level supervisions. Code is at https://github.com/Qinying-Liu/C3BN.
- Abstract(参考訳): WTAL(Weakly-supervised temporal action Localization)は、ビデオレベルのラベルなど、弱い監視しか持たないアクションインスタンスを検出することを目的としている。
現在の~\textit{de facto}パイプラインは、時間的クラスのアクティベーションシーケンス上で、連続したハイスコア領域をしきい値にし、グループ化することで、アクションインスタンスを特定する。
この経路では、隣接するスニペット間の関係を認識するためのモデルの能力が重要であり、アクション境界の質を決定する。
しかし、隣接するスニペット間のばらつきは典型的には微妙であるため誤りが多く、残念ながら文献では見過ごされている。
この問題に対処するため,近隣住民間のコンベックス結合一貫性(C$^3$BN)という新しいWTALアプローチを提案する。
C$3$BNは、隣接するスニペットの凸結合によって隣接するスニペット間の多様性を増大させるマイクロデータ拡張戦略と、モデルを変換に不変に強制するマクロ-マイクロ一貫性正規化と、ビデオセマンティクス、スニペット予測、スニペット表現の2つの主要な要素から構成される。
その結果, 隣接するスニペット間のきめ細かいパターンの探索が可能となり, より堅牢な動作境界の定位が可能となった。
ビデオレベルとポイントレベルの監督を行うWTALの各種ベースライン上でのC$^3$BNの有効性を実験的に検証した。
コードはhttps://github.com/Qinying-Liu/C3BNにある。
関連論文リスト
- BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation [4.977568882858193]
シーングラフ生成(SGG)のためのセマンティックアライメント空間における新しい双方向コンディショニング因数分解法を提案する。
本稿では,双方向コンディショニングトランス (BCTR) を用いたエンド・ツー・エンドシーングラフ生成モデルを提案する。
BCTRは2つの重要なモジュールから構成されている。まず、双方向条件生成装置(BCG)は、エンティティと述語の間で多段階の対話的特徴拡張を行い、これらの予測間の相互強化を可能にする。
第二に、Random Feature Alignment(RFA)は、事前訓練されたモデルからマルチモーダルな知識を蒸留することによって特徴空間を正規化するために存在する。
論文 参考訳(メタデータ) (2024-07-26T13:02:48Z) - Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching [0.0]
局所構造を考慮したグラフラプラシアン固有写像に基づく新しい手法を提案する。
ラプラシアン固有写像の順序と符号のあいまいさに対処するために、結合ラプラシアンと呼ばれる新しい作用素を導入する。
これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
論文 参考訳(メタデータ) (2024-02-27T10:10:12Z) - Revisiting Foreground and Background Separation in Weakly-supervised
Temporal Action Localization: A Clustering-based Approach [48.684550829098534]
弱教師付き時間的アクションローカライゼーションは、アクションインスタンスをビデオレベルのアクションラベルのみでローカライズすることを目的としている。
クラスタリングに基づく新しいF&B分離アルゴリズムを提案する。
我々は,THUMOS14,ActivityNet v1.2,v1.3の3つのベンチマークで評価を行った。
論文 参考訳(メタデータ) (2023-12-21T18:57:12Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z) - Patch-level Neighborhood Interpolation: A General and Effective
Graph-based Regularization Strategy [77.34280933613226]
我々は、ネットワークの計算において非局所的な表現を行うtextbfPatch-level Neighborhood Interpolation(Pani)と呼ばれる一般的な正規化器を提案する。
提案手法は,異なる層にパッチレベルグラフを明示的に構築し,その近傍のパッチ特徴を線形に補間し,汎用的で効果的な正規化戦略として機能する。
論文 参考訳(メタデータ) (2019-11-21T06:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。