論文の概要: Convex Combination Consistency between Neighbors for Weakly-supervised
Action Localization
- arxiv url: http://arxiv.org/abs/2205.00400v1
- Date: Sun, 1 May 2022 05:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 05:58:31.584826
- Title: Convex Combination Consistency between Neighbors for Weakly-supervised
Action Localization
- Title(参考訳): 弱監視行動局所化のための近隣住民間の凸結合
- Authors: Qinying Liu, Zilei Wang, Ruoxi Chen, Zhilin Li
- Abstract要約: 堅牢なスニペット予測を実現するために, 新規なC$3$BNを提案する。
C$3$BNには、ビデオデータ固有の特性を探求する2つの重要な設計が含まれている。
- 参考スコア(独自算出の注目度): 24.8556437000789
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In weakly-supervised temporal action localization (WS-TAL), the methods
commonly follow the "localization by classification" procedure, which uses the
snippet predictions to form video class scores and then optimizes a video
classification loss. In this procedure, the snippet predictions (or snippet
attention weights) are used to separate foreground and background. However, the
snippet predictions are usually inaccurate due to absence of frame-wise labels,
and then the overall performance is hindered. In this paper, we propose a novel
C$^3$BN to achieve robust snippet predictions. C$^3$BN includes two key designs
by exploring the inherent characteristics of video data. First, because of the
natural continuity of adjacent snippets, we propose a micro data augmentation
strategy to increase the diversity of snippets with convex combination of
adjacent snippets. Second, we propose a macro-micro consistency regularization
strategy to force the model to be invariant (or equivariant) to the
transformations of snippets with respect to video semantics, snippet
predictions and snippet features. Experimental results demonstrate the
effectiveness of our proposed method on top of baselines for the WS-TAL tasks
with video-level and point-level supervision.
- Abstract(参考訳): 弱教師付き時間行動定位法(ws-tal)では、スニペット予測を用いてビデオクラススコアを作成し、ビデオ分類損失を最適化する「分類による局所化」手順が一般的である。
この手順では、スニペット予測(またはスニペット注意重み)を使用して前景と背景を分離する。
しかし、スニペット予測は通常フレームラベルがないため不正確であり、全体的なパフォーマンスが阻害される。
本稿では,頑健なスニペット予測を実現するための新しいC$^3$BNを提案する。
c$^3$bnはビデオデータの固有の特性を調べる2つの重要な設計を含んでいる。
まず,隣接スニペットの自然な連続性から,隣接スニペットの凸結合によるスニペットの多様性を高めるためのマイクロデータ拡張戦略を提案する。
第2に,ビデオ意味論,スニペット予測,スニペット特徴に関して,モデルにスニペットの変換に対する不変(あるいは同変)を強制するマクロマイクロ一貫性正規化戦略を提案する。
実験により,提案手法がws-talタスクのベースライン上でビデオレベルとポイントレベルを監督する上で有効であることを示す。
関連論文リスト
- BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation [4.977568882858193]
シーングラフ生成(SGG)のためのセマンティックアライメント空間における新しい双方向コンディショニング因数分解法を提案する。
本稿では,双方向コンディショニングトランス (BCTR) を用いたエンド・ツー・エンドシーングラフ生成モデルを提案する。
BCTRは2つの重要なモジュールから構成されている。まず、双方向条件生成装置(BCG)は、エンティティと述語の間で多段階の対話的特徴拡張を行い、これらの予測間の相互強化を可能にする。
第二に、Random Feature Alignment(RFA)は、事前訓練されたモデルからマルチモーダルな知識を蒸留することによって特徴空間を正規化するために存在する。
論文 参考訳(メタデータ) (2024-07-26T13:02:48Z) - Coupled Laplacian Eigenmaps for Locally-Aware 3D Rigid Point Cloud Matching [0.0]
局所構造を考慮したグラフラプラシアン固有写像に基づく新しい手法を提案する。
ラプラシアン固有写像の順序と符号のあいまいさに対処するために、結合ラプラシアンと呼ばれる新しい作用素を導入する。
これらの高次元空間間の類似性は、形状に一致するような局所的な意味のあるスコアを与えることを示す。
論文 参考訳(メタデータ) (2024-02-27T10:10:12Z) - Revisiting Foreground and Background Separation in Weakly-supervised
Temporal Action Localization: A Clustering-based Approach [48.684550829098534]
弱教師付き時間的アクションローカライゼーションは、アクションインスタンスをビデオレベルのアクションラベルのみでローカライズすることを目的としている。
クラスタリングに基づく新しいF&B分離アルゴリズムを提案する。
我々は,THUMOS14,ActivityNet v1.2,v1.3の3つのベンチマークで評価を行った。
論文 参考訳(メタデータ) (2023-12-21T18:57:12Z) - Temporal Action Localization with Enhanced Instant Discriminability [66.76095239972094]
時間的行動検出(TAD)は、すべての行動境界とその対応するカテゴリを、トリミングされていないビデオで検出することを目的としている。
本稿では,既存の手法による動作境界の不正確な予測を解決するために,TriDetという一段階のフレームワークを提案する。
実験結果から,複数のTADデータセット上でのTriDetの堅牢性と最先端性能が示された。
論文 参考訳(メタデータ) (2023-09-11T16:17:50Z) - Weakly-supervised Action Localization via Hierarchical Mining [76.00021423700497]
弱教師付きアクションローカライゼーションは、ビデオレベルの分類ラベルだけで、与えられたビデオ内のアクションインスタンスを時間的にローカライズし、分類することを目的としている。
ビデオレベルおよびスニペットレベルでの階層的マイニング戦略,すなわち階層的監視と階層的一貫性マイニングを提案する。
我々は、HiM-NetがTHUMOS14とActivityNet1.3データセットの既存の手法よりも、階層的に監督と一貫性をマイニングすることで、大きなマージンを持つことを示す。
論文 参考訳(メタデータ) (2022-06-22T12:19:09Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Scope Head for Accurate Localization in Object Detection [135.9979405835606]
本研究では,各位置のアンカーを相互依存関係としてモデル化したScopeNetと呼ばれる新しい検出器を提案する。
我々の簡潔で効果的な設計により、提案したScopeNetはCOCOの最先端の成果を達成する。
論文 参考訳(メタデータ) (2020-05-11T04:00:09Z) - Patch-level Neighborhood Interpolation: A General and Effective
Graph-based Regularization Strategy [77.34280933613226]
我々は、ネットワークの計算において非局所的な表現を行うtextbfPatch-level Neighborhood Interpolation(Pani)と呼ばれる一般的な正規化器を提案する。
提案手法は,異なる層にパッチレベルグラフを明示的に構築し,その近傍のパッチ特徴を線形に補間し,汎用的で効果的な正規化戦略として機能する。
論文 参考訳(メタデータ) (2019-11-21T06:31:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。