論文の概要: Unleashing the Potential of Adjacent Snippets for Weakly-supervised
Temporal Action Localization
- arxiv url: http://arxiv.org/abs/2205.00400v2
- Date: Thu, 21 Dec 2023 11:50:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 19:43:10.870205
- Title: Unleashing the Potential of Adjacent Snippets for Weakly-supervised
Temporal Action Localization
- Title(参考訳): 弱教師付き時間行動定位のための隣接スニペットのポテンシャルの解き放つ
- Authors: Qinying Liu, Zilei Wang, Ruoxi Chen, Zhilin Li
- Abstract要約: 我々は、近隣住民間の凸結合一貫性(C$3$BN)という新しいWTALアプローチを提案する。
C$3$BNは、隣接するスニペット間の多様性を高めるマイクロデータ拡張戦略と、マクロ-マイクロ整合性正規化の2つの重要な要素で構成されている。
ビデオレベルとポイントレベルの監督を行うWTALの各種ベースライン上でのC$3$BNの有効性を実験的に実証した。
- 参考スコア(独自算出の注目度): 29.096429328626986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly-supervised temporal action localization (WTAL) intends to detect
action instances with only weak supervision, \eg, video-level labels. The
current~\textit{de facto} pipeline locates action instances by thresholding and
grouping continuous high-score regions on temporal class activation sequences.
In this route, the capacity of the model to recognize the relationships between
adjacent snippets is of vital importance which determines the quality of the
action boundaries. However, it is error-prone since the variations between
adjacent snippets are typically subtle, and unfortunately this is overlooked in
the literature. To tackle the issue, we propose a novel WTAL approach named
Convex Combination Consistency between Neighbors (C$^3$BN). C$^3$BN consists of
two key ingredients: a micro data augmentation strategy that increases the
diversity in-between adjacent snippets by convex combination of adjacent
snippets, and a macro-micro consistency regularization that enforces the model
to be invariant to the transformations~\textit{w.r.t.} video semantics, snippet
predictions, and snippet representations. Consequently, fine-grained patterns
in-between adjacent snippets are enforced to be explored, thereby resulting in
a more robust action boundary localization. Experimental results demonstrate
the effectiveness of C$^3$BN on top of various baselines for WTAL with
video-level and point-level supervisions. Code is at
https://github.com/Qinying-Liu/C3BN.
- Abstract(参考訳): WTAL (Weakly-supervised temporal action Localization) は、弱い監督力を持つアクションインスタンスを検出することを目的としている。
現在の~\textit{de facto}パイプラインは、時間クラスのアクティベーションシーケンス上の連続的な高スコア領域のしきい値化とグループ化によって、アクションインスタンスを見つける。
この経路では、隣接するスニペット間の関係を認識するモデルの能力は、アクションバウンダリの品質を決定する上で極めて重要である。
しかし、隣接するスニペット間のばらつきは典型的には微妙であるため誤りが多く、残念ながら文献では見落としている。
この問題に対処するため,近隣住民間のコンベックス結合一貫性(C$^3$BN)という新しいWTALアプローチを提案する。
C$3$BNは、隣接するスニペットの凸結合によって隣接するスニペット間の多様性を増大させるマイクロデータ拡張戦略と、モデルを変換に不変に強制するマクロ-マイクロ一貫性正規化と、ビデオセマンティクス、スニペット予測、スニペット表現の2つの主要な要素から構成される。
その結果, 隣接するスニペット間のきめ細かいパターンの探索が可能となり, より堅牢な動作境界の定位が可能となった。
実験の結果,ビデオレベルおよびポイントレベルの監督を伴うwtalの各種ベースライン上でc$^3$bnの有効性が示された。
コードはhttps://github.com/Qinying-Liu/C3BNにある。
関連論文リスト
- BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation [4.977568882858193]
シーングラフ生成(SGG)のためのセマンティックアライメント空間における新しい双方向コンディショニング因数分解法を提案する。
本稿では,双方向コンディショニングトランス (BCTR) を用いたエンド・ツー・エンドシーングラフ生成モデルを提案する。
BCTRは2つの重要なモジュールから構成されている。まず、双方向条件生成装置(BCG)は、エンティティと述語の間で多段階の対話的特徴拡張を行い、これらの予測間の相互強化を可能にする。
第二に、Random Feature Alignment(RFA)は、事前訓練されたモデルからマルチモーダルな知識を蒸留することによって特徴空間を正規化するために存在する。
論文 参考訳(メタデータ) (2024-07-26T13:02:48Z) - Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching [0.0]
局所構造を考慮したグラフラプラシアン固有写像に基づく新しい手法を提案する。
ラプラシアン固有写像の順序と符号のあいまいさに対処するために、結合ラプラシアンと呼ばれる新しい作用素を導入する。
これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
論文 参考訳(メタデータ) (2024-02-27T10:10:12Z) - Revisiting Foreground and Background Separation in Weakly-supervised
Temporal Action Localization: A Clustering-based Approach [48.684550829098534]
弱教師付き時間的アクションローカライゼーションは、アクションインスタンスをビデオレベルのアクションラベルのみでローカライズすることを目的としている。
クラスタリングに基づく新しいF&B分離アルゴリズムを提案する。
我々は,THUMOS14,ActivityNet v1.2,v1.3の3つのベンチマークで評価を行った。
論文 参考訳(メタデータ) (2023-12-21T18:57:12Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z) - Patch-level Neighborhood Interpolation: A General and Effective
Graph-based Regularization Strategy [77.34280933613226]
我々は、ネットワークの計算において非局所的な表現を行うtextbfPatch-level Neighborhood Interpolation(Pani)と呼ばれる一般的な正規化器を提案する。
提案手法は,異なる層にパッチレベルグラフを明示的に構築し,その近傍のパッチ特徴を線形に補間し,汎用的で効果的な正規化戦略として機能する。
論文 参考訳(メタデータ) (2019-11-21T06:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。