論文の概要: Bottom-Up Temporal Action Localization with Mutual Regularization
- arxiv url: http://arxiv.org/abs/2002.07358v3
- Date: Fri, 26 Feb 2021 02:26:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 20:08:50.782226
- Title: Bottom-Up Temporal Action Localization with Mutual Regularization
- Title(参考訳): 相互正則化によるボトムアップ時間行動定位
- Authors: Peisen Zhao, Lingxi Xie, Chen Ju, Ya Zhang, Yanfeng Wang, Qi Tian
- Abstract要約: TALの最先端の解決策は、3つの行動指示相のフレームレベルの確率を評価することである。
学習手順を相互に規則化するための2つの規則化用語を導入する。
実験は2つの人気のTALデータセット、THUMOS14とActivityNet1.3で行われている。
- 参考スコア(独自算出の注目度): 107.39785866001868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, temporal action localization (TAL), i.e., finding specific action
segments in untrimmed videos, has attracted increasing attentions of the
computer vision community. State-of-the-art solutions for TAL involves
evaluating the frame-level probabilities of three action-indicating phases,
i.e. starting, continuing, and ending; and then post-processing these
predictions for the final localization. This paper delves deep into this
mechanism, and argues that existing methods, by modeling these phases as
individual classification tasks, ignored the potential temporal constraints
between them. This can lead to incorrect and/or inconsistent predictions when
some frames of the video input lack sufficient discriminative information. To
alleviate this problem, we introduce two regularization terms to mutually
regularize the learning procedure: the Intra-phase Consistency (IntraC)
regularization is proposed to make the predictions verified inside each phase;
and the Inter-phase Consistency (InterC) regularization is proposed to keep
consistency between these phases. Jointly optimizing these two terms, the
entire framework is aware of these potential constraints during an end-to-end
optimization process. Experiments are performed on two popular TAL datasets,
THUMOS14 and ActivityNet1.3. Our approach clearly outperforms the baseline both
quantitatively and qualitatively. The proposed regularization also generalizes
to other TAL methods (e.g., TSA-Net and PGCN). code:
https://github.com/PeisenZhao/Bottom-Up-TAL-with-MR
- Abstract(参考訳): 近年、時間的アクションローカライゼーション(TAL)、すなわち、未トリミングビデオで特定のアクションセグメントを見つけることは、コンピュータビジョンコミュニティの注目を集めている。
talの最先端のソリューションは、3つのアクション指示フェーズ、すなわち開始、継続、終了のフレームレベルの確率を評価し、最終ローカライズのためにこれらの予測を後処理する。
本稿では,これらの段階を個別の分類タスクとしてモデル化することで,それらの間の潜在的な時間的制約を無視した。
これにより、ビデオ入力のフレームに十分な識別情報がない場合、誤った予測や一貫性のない予測につながる可能性がある。
そこで,本研究では,学習手順を相互に正則化するための2つの正則化項を導入する。各フェーズ内の予測を検証するためにinter-phase consistency (intrac)正則化を提案し,これら相間の一貫性を保つためにinter-phase consistency (interc)正則化を提案する。
これら2つの用語を共同最適化することで、フレームワーク全体がエンドツーエンドの最適化プロセスにおいて、潜在的な制約を認識します。
実験は2つの人気のTALデータセットTHUMOS14とActivityNet1.3で行われている。
我々のアプローチは量的にも質的にも明らかにベースラインを上回っている。
提案された正規化は、他のTALメソッド(TSA-NetやPGCNなど)にも一般化される。
コード: https://github.com/peisenzhao/bottom-up-tal-with-mr
関連論文リスト
- TS-TCD: Triplet-Level Cross-Modal Distillation for Time-Series Forecasting Using Large Language Models [15.266543423942617]
本稿では,3段階のクロスモーダルな知識蒸留機構を包括的に導入する新しいフレームワークTS-TCDを提案する。
分離されたアライメント技術に焦点を当てた以前の作業とは異なり、私たちのフレームワークは体系的に統合されます。
ベンチマークタイムシリーズの実験では、TS-TCDは最先端の結果を達成し、精度と堅牢性の両方で従来の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-09-23T12:57:24Z) - STAT: Towards Generalizable Temporal Action Localization [56.634561073746056]
WTAL(Wakly-supervised temporal action Localization)は、ビデオレベルのラベルだけでアクションインスタンスを認識およびローカライズすることを目的としている。
既存の手法は、異なる分布に転送する際の重大な性能劣化に悩まされる。
本稿では,アクションローカライズ手法の一般化性向上に焦点を当てたGTALを提案する。
論文 参考訳(メタデータ) (2024-04-20T07:56:21Z) - Weakly Supervised Co-training with Swapping Assignments for Semantic Segmentation [21.345548821276097]
クラスアクティベーションマップ(CAM)は通常、擬似ラベルを生成するために弱教師付きセマンティックセマンティックセグメンテーション(WSSS)で使用される。
我々は、ガイド付きCAMを組み込んだエンドツーエンドWSSSモデルを提案し、CAMをオンラインで同時最適化しながらセグメンテーションモデルを訓練する。
CoSAは、追加の監督を持つものを含む、既存のマルチステージメソッドをすべて上回る、最初のシングルステージアプローチである。
論文 参考訳(メタデータ) (2024-02-27T21:08:23Z) - DIR-AS: Decoupling Individual Identification and Temporal Reasoning for
Action Segmentation [84.78383981697377]
完全な教師付きアクションセグメンテーションは、高密度アノテーションによるフレームワイドアクション認識に作用し、しばしば過剰なセグメンテーションの問題に悩まされる。
本研究では, 時間的ピラミッド拡張と時間的ピラミッドプールを併用して, 効率的なマルチスケールアテンションを実現するため, 新たなローカル・グローバルアテンション機構を開発した。
GTEAでは82.8%(+2.6%)、Breakfastでは74.7%(+1.2%)の精度を実現し,本手法の有効性を示した。
論文 参考訳(メタデータ) (2023-04-04T20:27:18Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Temporal Transductive Inference for Few-Shot Video Object Segmentation [27.140141181513425]
Few-shot Object segmentation (FS-VOS) は、初期訓練中に見えないクラスのラベル付き例を用いて、ビデオフレームのセグメンテーションを目的としている。
我々のアプローチの鍵は、グローバルな時間的制約とローカルな時間的制約の両方を使用することである。
経験的に、我々のモデルは、YouTube-VIS上の組合間の平均交点を2.8%上回る、最先端のメタラーニングアプローチより優れている。
論文 参考訳(メタデータ) (2022-03-27T14:08:30Z) - Temporal Context Aggregation Network for Temporal Action Proposal
Refinement [93.03730692520999]
時間的行動提案生成はビデオ理解分野において難しいが重要な課題である。
現在の方法はまだ不正確な時間境界と検索に使用される劣った自信に苦しんでいます。
TCANet は、「ローカルおよびグローバル」な時間的コンテキストアグリゲーションを通じて、高品質のアクション提案を生成するために提案します。
論文 参考訳(メタデータ) (2021-03-24T12:34:49Z) - Two-Stream Consensus Network for Weakly-Supervised Temporal Action
Localization [94.37084866660238]
本稿では,これらの課題を同時に解決するためのTwo-Stream Consensus Network(TSCN)を提案する。
提案したTSCNは,フレームレベルの疑似地上真実を反復的に更新する反復的精錬訓練手法を特徴とする。
本稿では,2進選択のように振る舞うように注意を喚起し,アクションインスタンス境界の正確な局所化を促進するために,新たな注意正規化損失を提案する。
論文 参考訳(メタデータ) (2020-10-22T10:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。